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Prefacio 


Enfoque general y nivel matematico 

Los objetivos generales de la octava edicion son los mismos que los de las ediciones 
recientes. Consideramos que es importante conservar el equilibrio entre la teori'a y 
las aplicaciones. Los ingenieros y los fi'sicos, al igual que los especialistas en ciencias 
de la computacion, estan capacitados en calculo, de manera que esta obra se apoya 
en las matematicas cuando consideramos que esto enriquece la labor didactica. Este en- 
foque impide que el material se convierta en una mera coleccion de herramientas sin 
fundamentos matematicos. Seguramente, los estudiantes con ciertos conocimientos 
de calculo y, en algunos casos, en algebra lineal, tienen la capacidad de entender mejor 
los conceptos y de utilizar las herramientas resultantes de una forma mas inteligente. 
De lo contrario, se correrfa el riesgo de que el estudiante solo sea capaz de aplicar el 
material dentro de lfmites muy estrechos. 

La nueva edicion incluye abundantes ejercicios, los cuales desafi'an al estudiante a 
utilizar los conceptos del texto para resolver problemas relacionados con diversas 
situaciones del campo cientffico y de la ingenieri'a. Los datos de los ejercicios estan dis- 
ponibles para descargarse del companion website en http:www.pearsoneducacion. 
net /walpole. El aumento en la cantidad de ejercicios da como resultado un espectro mas 
amplio de areas de aplicacion, que incluyen la ingenieri'a biomedica, la bioingenierfa, 
los problemas de negocios, di versos temas de computacion y muchos otros. Incluso los 
capftulos relacionados con la introduction a la teori'a de la probabilidad contienen 
ejemplos y ejercicios que tienen un amplio rango de aplicaciones, cuya importancia 
reconoceran facilmente los estudiantes de ciencias e ingenieri'a. Al igual que en edi- 
ciones previas, el uso del calculo se restringe a la teori'a elemental de la probabilidad 
y a las distribuciones de probabilidad. Estos temas se estudian en los capftulos 2, 
3, 4, 6 y 7. El capftulo 7 es un capftulo optional que incluye transformaciones de 
variables y funciones generadoras de momentos. El algebra de matrices se utiliza 
solo en los capftulos 11 y 12, dedicados a la regresion lineal. Para quienes desean un 
mayor apoyo en el tema de matrices, tienen a su disposition una section opcional en 
el capftulo 12. El profesor que quiera reducir el uso de matrices podrfa omitir esta 
section sin perdida de continuidad. Los estudiantes que utilicen este texto deben 
haber completado el equivalente de un semestre de calculo diferencial e integral. El 
conocimiento del algebra de matrices serfa util, aunque no necesario si el contexto 
del curso excluye la section opcional del capftulo 12 antes mencionada. 
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Contenido y planeacion del curso 

Este texto esta disenado para cursos tanto de uno como de dos semestres. Un pro- 
grama de estudios razonable para un semestre incluirfa los capftulos 1 al 10. Muchos 
profesores desean que los alumnos hayan estudiado en algun grado la regresion lineal 
simple en un curso de un semestre. En tal caso, podrfa incluirse una parte del capf- 
tulo 11. Por otro lado, algunos profesores desearan abarcar una parte del analisis de 
varianza, en cuyo caso podrfan excluirse los capftulos 11 y 12 a favor de una parte 
del capftulo 13, que se refiere al analisis de varianza de un factor. Con la finalidad 
de tener tiempo suficiente para dedicar a uno de estos temas o quizas a los dos, el 
profesor tal vez quiera eliminar el capftulo 7 y/o ciertos temas especializados de los 
capftulos 5 y 6 (por ejemplo, las distribuciones gamma, logarftmicas normales y de 
Weibull, o el material sobre las distribuciones negativa binomial y geometrica). De 
hecho, algunos profesores consideran que en un curso de un semestre, donde el ana- 
lisis de regresion y el analisis de varianza son de interes prioritario, deben eliminarse 
ciertos temas del capftulo 9, dedicado a la estimation (por ejemplo, probabilidad 
maxima, intervalos de prediction y/o lfmites de tolerancia). Pensamos que si hay fle- 
xibilidad, el profesor podra establecer las prioridades en un curso de un semestre. 

El capftulo 1 ofrece una panoramica elemental de la inferencia estadfstica dise- 
nada para el principiante. Contiene material sobre el muestreo y el analisis de datos 
e incluye muchos ejemplos y ejercicios para motivar al alumno. De hecho, algunos 
aspectos muy rudimentarios del diseno experimental se incluyen junto con una apre- 
ciacion de tecnicas graficas y ciertas caracterfsticas esenciales de la recoleccion de 
datos. Los capftulos 2, 3 y 4 se ocupan de la probabilidad basica, asf como de las 
variables aleatorias discretas y continuas. Los capftulos 5 y 6 se ocupan de las distri- 
buciones discretas y continuas especfficas; ademas, se incluye un numero importante 
de ejemplos y ejercicios con ilustraciones de su uso, destacando las relaciones que 
hay entre ellos. El capftulo 7 es opcional y se ocupa de la transformation de las va- 
riables aleatorias. Tal vez un profesor desee cubrir este material solo si imparte un 
curso mas teorico. Sin duda, este capftulo es el que incluye mas matematicas de todo 
el texto. El capftulo 8 contiene material adicional sobre metodos graficos, asf como 
una introduction de suma relevancia para el estudio de la distribution muestral. 
Se analizan las graficas de probabilidad. El material sobre distribution muestral se 
refuerza con una explication completa sobre el teorema del lfmite central, y sobre 
la distribution de una varianza muestral bajo muestreo normal, identica e indepen- 
dientemente distribuido (i.i.d.). Las distribuciones t y F y sus diversos usos se pre- 
sentan en los capftulos que siguen. Los capftulos 9 y 10 incluyen material sobre uno 
y dos puntos muestrales, estimation del intervalo y prueba de hipotesis. El material 
sobre intervalos de confianza, intervalos de prediction, intervalos de tolerancia y 
estimation de probabilidad maxima en el capftulo 9 ofrece al usuario una flexibilidad 
considerable en relation con lo que se podrfa excluir en un curso de un semestre. Se 
elimino una section sobre la estimation de Bayes, que se inclufa en el capftulo 9 de 
la septima edition. Se prestara mas atencion a este tema en la section “Lo nuevo en 
esta edition” , que viene mas adelante. 

Los capftulos 11 a 17 incluyen abundante material para un segundo semestre. La 
regresion lineal simple y multiple se presentan en los capftulos 8 y 12, respectiva- 
mente. El capftulo 12 contiene material sobre regresion logfstica, cuyas aplicaciones 
son abundantes en las areas de ingenierfa y ciencias biologicas. El material sobre 
regresion lineal multiple es muy abundante y permite flexibilidad al profesor. Entre 
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los “temas especiales” a los que el profesor tiene acceso estan el caso especial de 
variables regresoras y ortogonales, categoricas e indicadoras, metodos secuenciales 
para selection de modelos, estudio de residuos y transgresion de las suposiciones, 
validation cruzada y el uso de press y C p , y, por supuesto, regresion logistica. Los 
capitulos 13 a 17 incluyen temas sobre analisis de varianza, diseiio experimental, 
estadisticos no parametricos y control de calidad. El capitulo 15 trata factoriales de 
dos niveles (con y sin bloqueo) y factoriales fraccionales; una vez mas, la flexibilidad 
se hace presente en los multiples “temas especiales” que se presentan en este capi- 
tulo. Los temas mas alia de los disenos estandar 2 k y fraccional 2 k incluyen bloqueo 
y confusion parcial, fracciones especiales superiores, disenos de Plackett-Burman y 
diseiio de parametro robusto. 

Todos los capitulos incluyen un gran numero de ejercicios, muchos mas de los 
que se incluian en la septima edicion. Se detalla mas information sobre los ejercicios 
en la section “Lo nuevo en esta edicion” . 


Estudios de caso y software 

El material sobre prueba de hipotesis de dos muestras, regresion lineal multiple, ana- 
lisis de varianza y el uso de experimentos factoriales de dos niveles se complementa 
con estudios de caso, que presentan las hojas de salida de computadoras y material 
grafico. Se incluyen archivos de texto que pueden usarse tanto en sas como minitab. 
El uso de hojas de salida de computadora reflcja nuestra idea de que los estudiantes 
deberian tener la experiencia de leer e interpretar los resultados de computadora y 
las graficas, incluso si el profesor no utiliza los que se presentan en el texto. La ex- 
position a mas de un tipo de software amplia la base de experiencia para el alumno. 
No hay razon para creer que el software en el curso sera el mismo que el estudiante 
tendra que usar en su practica posterior a la graduation. Muchos ejemplos y estudios 
de caso en el texto se complementan, cuando resulta adecuado, con diversos tipos de 
graficas residuales, graficas de cuantiles, graficas de probabilidad normal y algunas 
otras. Esto sucede, sobre todo, en el material utilizado en los capitulos 11 a 15. 


Lo nuevo en esta edicion 

En general 

1. Se agrego entre un 15 y 20% de problemas nuevos, con muchas aplicaciones re- 
cientes demostradas en ingenieria, asi como en las ciencias biologicas, fisicas y de 
la computation. 

2 . Hay material nuevo y de repaso al final de cada capitulo, donde resulte apropia- 
do. Este material destaca las ideas clave, asi como los riesgos y peligros de los 
que debe estar consciente el usuario del material que se estudia en el capitulo. 
Esta section tambien brinda la demostracion de como el material presentado se 
relaciona con el material de otros capitulos. 

3 . Se incorporo un nuevo (y optional) minicapitulo sobre la estadistica bayesiana. 
El capitulo presenta material practico con aplicaciones en muchos campos. 

4 . Hay otros cambios importantes a lo largo de la obra, con base en lo que los autores 
y revisores percibieron. A continuation se describen de manera especifica algunos 
de tales cambios. 
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Capftulo 1: Introduction a la estadfstica y al analisis de datos 

El capftulo 1 presenta una cantidad significativa de material novedoso. Hay una 
nueva explicacion sobre la diferencia entre medidas discretas y continuas. Muchos 
ejemplos se presentan con aplicaciones especfficas de las medidas discretas en la 
vida real (por ejemplo, los mimeros de partfculas radiactivas, el mimero de personal 
responsable de una instalacion portuaria particular y el mimero de buques petrole- 
ros que llegan cada dfa a un puerto). Se presta especial atencion a las situaciones 
asociadas con datos binarios. Se dan ejemplos del campo biomedico y del control de 
c alidad. 

Se analizan nuevos conceptos (para este texto) en el capftulo 1, en relation con 
las propiedades de una distribution o una muestra, ademas de aquellas que caracte- 
rizan la tendencia central y la variabilidad. Se definen y analizan los cuartiles y, mas 
generalmente, los cuantiles. 

Con respecto a la septima edition, se amplio la explicacion sobre la importancia 
del diseno experimental y las ventajas que ofrece. En este desarrollo se tratan impor- 
tantes nociones, que incluyen aleatorizacion, reduction de variabilidad en el proceso 
y la interaction entre factores. 

Los lectores se enfrentan en este capftulo a diferentes tipos de estudios estadfs- 
ticos: el diseno experimental, el estudio observational y el estudio retrospectivo. 
Se dan ejemplos de cada tipo de estudio, y se analizan sus ventajas y desventajas. 
El capftulo continria con entasis en los procedimientos graficos y sus campos de 
aplicacion. 

Se agregaron 19 nuevos ejercicios al capftulo 1. Algunos emplean datos de los 
estudios realizados en el centro de consulta del Tecnologico de Virginia Tech, otros se 
tomaron de publicaciones especializadas en ingenierfa, y otros mas incluyen datos his- 
toricos. Este capftulo contiene ahora 30 ejercicios. 


Capftulo 2: Probabilidad 

Hay nuevos ejemplos y una nueva explicacion para ilustrar mejor la notion de la 
probabilidad condicional. El capftulo 2 ofrece un total de 136 ejercicios. Todos los 
ejercicios nuevos implican aplicaciones directas en ciencias y en ingenierfa. 


Capftulo 3: Variables aleatorias y distribuciones de probabilidad 

Hay una nueva explicacion sobre la notion de variables “dummy”, que juegan un rol 
importante en las distribuciones de Bernoulli y binomial. Hay mucho mas ejercicios 
con nuevas aplicaciones. La section de repaso al final del capftulo destaca la relation 
entre el material del capftulo 3 con el concepto de parametros de distribution y dis- 
tribuciones de probabilidad especffica, que se estudian en capftulos posteriores. 

Los temas para los nuevos ejercicios incluyen la distribution del tamaho de las 
partfculas para el combustible de misiles, errores de medicion en sistemas cientfficos, 
estudios sobre el tiempo que tardan las lavadoras en presentar fallas, la production 
de tubos de electrones en una lfnea de ensamble, problemas de tiempo de llegada a 
ciertas intersecciones en las grandes ciudades, la vida de un producto en el anaquel, 
problemas de congestionamiento de pasajeros en los aeropuertos, problemas con las 
impurezas en lotes de productos qufmicos, fallas en sistemas de componentes electro- 
nicos que trabajan en paralelo, entre muchos otros. Ahora hay 82 ejercicios en este 
capftulo. 
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Capftulo 4: 


Capftulo 5: 


Capftulo 6: 


Capftulo 7: 


Capftulo 8: 


Esperanza matematica 

Se agregaron varios ejercicios mas al capftulo 4. Las reglas para las expectativas y las 
varianzas de funciones lineales se ampliaron para cubrir aproximaciones de funciones 
no lineales. Se ofrecen ejemplos para ilustrar el uso de estas reglas. El repaso al final 
del capftulo 4 revela posibles dificultades y riesgos con las aplicaciones practicas del 
material, ya que la mayorfa de los ejemplos y ejercicios suponen que los parametros 
(media y varianza) se conocen; mientras que en las aplicaciones reales estos parame- 
tros serfan estimados. Se hace referenda al capftulo 9, donde se estudia la estimation. 
Ahora hay 103 ejercicios en este capftulo. 

Algunas distribuciones de probabilidad discreta 

Se agregaron nuevos ejercicios que representan las diversas aplicaciones de la distri- 
bution de Poisson. Tambien se presenta una explication adicional sobre la funcion 
de probabilidad de Poisson. 

Se incluyen nuevos ejercicios de aplicaciones en la vida real de las distribuciones de 
Poisson, binomial e hipergeometrica. Los temas para los nuevos ejercicios se refieren 
a los defectos en cables de cobre, baches en las carreteras que requieren reparation, 
trafico de pacientes en hospitales urbanos, inspection del equipaje en aeropuertos, 
sistemas de seguridad en tierra para detection de misiles y muchos otros. Ademas, se 
presentan graficas que ofrecen al lector una clara indication acerca de la naturaleza 
de las distribuciones de Poisson y binomial conforme cambian los parametros. En este 
capftulo hay ahora 105 ejercicios. 

Algunas distribuciones continuas de probabilidad 

Se agregaron muchos mas ejemplos y ejercicios referentes a la distribution exponencial 
y gamma. La propiedad de “falta de memoria” de la distribution exponencial ahora 
se explica de manera extensa y en relation con el vinculo entre las distribuciones 
exponencial y de Poisson. La section sobre la distribution de Weibull se mejoro y 
amplio considerablemente. Las extensiones presentadas se enfocan en la medicion 
e interpretation de la tasa de falla o “tasa de riesgo” , y en como el conocimiento de 
los parametros de Weibull permiten al usuario aprender la forma en que las maquinas 
se desgastan o incluso se vuelven mas resistentes con el paso del tiempo. Se presentan 
mas ejercicios en relation con las distribuciones de Weibull y logarftmica normal. Al 
igual que en el capftulo 5, en la section de repaso se advierte que hay que tener cui- 
dado en ciertos casos. En situaciones practicas, las suposiciones o estimaciones de los 
parametros de proceso de la distribution gamma en los problemas relacionados con 
la tasa de falla, por ejemplo, o en los parametros de una distribution gamma o de 
Weibull, podrfan ser inestables, lo que da lugar a errores en los calculos. Ahora hay 84 
ejercicios en total en este capftulo. 

Funciones de variables aleatorias (opcional) 

No se realizaron cambios fundamentales en este capftulo opcional. 

Distribuciones de muestreo fundamentales y descripcion de datos 

Se incluye una explication adicional sobre el teorema del lfmite central, asf como so- 
bre el concepto general de distribuciones de muestreo. Hay muchos nuevos ejercicios. 
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El resumen brinda information importante sobre t , y 2 y C incluyendo la forma como 
se emplean y las suposiciones implicadas. 

En este capi'tulo se presta mayor atencion a la elaboration de graficas de proba- 
bilidad normal. Ademas, se explica el teorema del limite central con mayor detalle, 
de manera que el lector entienda mejor el tamaiio que debe tener n antes de buscar 
la normalidad. Se presentan graficas para ilustrar esta situation. 

Se da una exposition adicional en relation con la aproximacion normal a la dis- 
tribution binomial y como opera en situaciones practicas. La presentation inclu- 
ye un argumento intuitivo que vincula la aproximacion normal de la binomial 
con el teorema del lfmite central. El numero de ejercicios en este capi'tulo ahora es 
de 75. 

Capftulo 9: Problemas de estimacion de una y dos muestras 

En los nuevos ejercicios se presentan muchas aplicaciones recientes de este capi'tulo. 
El resumen explica la razon fundamental y los riesgos asociados con el llamado in- 
tervalo de confianza de muestra grande. Se explica la importancia de la suposicion 
de normalidad y las condiciones en las cuales se realiza. 

A1 principio de este capi'tulo, el desarrollo de los intervalos de confianza ofrece 
una explication pragmatica acerca de por que uno debe comenzar con el caso de “<r 
conocida”. Se sugiere que este tipo de situaciones no ocurren verdaderamente en 
la practica, pero la consideration del caso de er conocida, en principio, ofrece una 
estructura que permite que los estudiantes comprendan el caso mas util de “er des- 
conocida” . 

Los lfmites unilaterales de todos los tipos se presentan aquf y se da una expli- 
cation sobre cuando se les utiliza como opuestos a sus contrapartes bilaterales. Se 
presentan nuevos ejemplos que requieren del uso de intervalos unilaterales. Iilstos 
incluyen los intervalos de confianza, de prediction y de tolerancia. Se explica el con- 
cepto de error cuadrado medio de un estimador. De esta forma, es posible concentrar 
la notion de sesgo y de varianza en la comparacion general de los estimadores. Se 
incluyen 27 nuevos ejercicios en el capi'tulo 9, y en total se presentan 111. 


Capftulo 10: Pruebas de hipotesis de una y dos muestras 

Se presenta una exposition enteramente reestructurada sobre la introduction a la 
prueba de hipotesis. Se diseno para ayudar al estudiante a tener una vision clara 
de que es lo que se realiza y que no en una prueba de hipotesis. La notion de que 
rara vez, si es que acaso, “aceptamos la hipotesis nula” se analiza con la ayuda de 
ilustraciones. Tambien se presenta una explication completa con ejemplos, acerca 
de como se deberfan estructurar o establecer la hipotesis nula y la alternativa. La 
notion de que el rechazo implica que la “evidencia de muestra refuta Hq" y de que 
Hq es en realidad el complemento logico de H\ se analiza de manera precisa con 
la ayuda de varios ejemplos. Se discute mucho acerca del concepto de “no rechace 
Hq" y sobre lo que significa en situaciones practicas. El resumen se refiere a “con- 
cepciones errones y riesgos”, lo cual revela problemas en establecer conclusiones 
equivocadas cuando el analista “no rechaza” la hipotesis nula. Ademas, se analiza 
la “robustez”, que tiene que ver con la naturaleza de la sensibilidad de diversas 
pruebas de hipotesis para la suposicion de normalidad. Ahora se incluyen 115 ejer- 
cicios en este capi'tulo. 
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Capitulo 11: Regresion lineal simple y correlacion 

Se agregaron muchos nuevos ejercicios sobre regresion lineal simple. Se da una ex- 
plication especial sobre los errores en el uso de R 2 , el coeficiente de determination. 
Se pone un interes adicional en las graficas y el diagnostico en relacion con la re- 
gresion. El resumen se ocupa de los riesgos que uno encuentra si no se utilizan los 
diagnosticos. Se destaca que estos ultimos proveen “verificaciones” sobre la validez 
de las suposiciones. Los diagnosticos incluyen graficas de datos, graficas de residuos 
studentizados y graficas de probabilidad normal de residuos. 

A1 principio del capitulo se hace una importante presentacion acerca de la na- 
turaleza de los modelos lineales en ciencias y en ingenieria. Se senala que estos, con 
frecuencia, constituyen modelos empiricos que son simplificaciones de estructuras 
mas complejas y desconocidas. 

En este capitulo se pone mayor entasis en la elaboration de graficas de datos. La 
“regresion a traves del origen” se explica en un ejercicio. Se amplia la explication 
sobre lo que significa que Hq : f3 = 0 se rechace o no. Se emplean graficas para ilustrar 
los casos. Ahora se incluyen 68 ejercicios en este capitulo. 

Capitulo 12: Regresion lineal multiple y ciertos modelos de regresion lineal 

En este capitulo se da un tratamiento adicional a los problemas en el uso de R 2 . La 
discusion se centra alrededor de la necesidad de transigir entre el intento por alcanzar 
un “buen ajuste” para los datos y la perdida inevitable en grados de libertad del error 
que se experimenta cuando se “sobreajusta” . A1 respecto, la “i? 2 ajustada” se define 
y explica mediante ejemplos. Ademas, el coeficiente de variation (cv) se analiza y se 
interpreta como una medida que resulta util para comparar modelos en competencia. 
Se presentan varios nuevos ejercicios para brindar al lector experiencia en la com- 
paracion de modelos en competencia utilizando conjuntos de datos reales. Se da un 
tratamiento adicional al tema de “regresores categoricos” con herramientas graficas 
utilizadas para apoyar los conceptos implicados. Se incluyen ejercicios adicionales 
para ilustrar los usos practicos de la regresion logistica, tanto en el area industrial 
como en la investigation biomedica. Ahora se tienen 72 ejercicios en este capitulo. 

Capitulo 13: Experimentos de un solo factor: General 

La explication de la prueba de Tukey sobre las comparaciones multiples se amplio 
considerablemente. Se estudia mas material sobre la notion de tasa de error y los 
valores a en el contexto de los intervalos de confianza simultaneos. 

Se presenta una nueva e importante section sobre la “Transformation de los datos 
en el analisis de varianza”. Se hace un contraste con la explication en los capitulos 11 
y 12 en relacion con la transformation para producir un buen ajuste en la regresion. 
Se incluye una breve presentacion sobre la robustez del analisis de varianza para la 
suposicion de varianza homogenea. Esta explication se relaciona con las secciones an- 
teriores sobre las graficas de diagnostico para detectar violaciones en las suposiciones. 

Se hace una mention adicional sobre las causas fundamentales de la transgresion 
de la suposicion de varianza homogenea y sobre como a menudo es una ocurrencia 
natural, cuando la varianza es una funcion de la media. Las transformaciones se discu- 
ten de tal manera que pueden utilizarse para dar cabida al problema. Se dan ejemplos 
y ejercicios para ilustrar. Se agregaron varios nuevos ejercicios, para llegar a un total 
de 67. 
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Capftulo 14: Experimentos factoriales (dos o mas factores) 

Desde el inicio de este capftulo se da considerable atencion al concepto de interaccion 
y a las graficas de interaccion. Se presentan ejemplos donde las interpretaciones cien- 
tfficas de la interaccion se dan utilizando graficas. Nuevos ejercicios ilustran el uso de 
graficas, incluidas las de diagnostico de residuos. Varios nuevos ejercicios aparecen en 
este capftulo. Todos incluyen datos experimentales tornados de las ciencias qufmicas 
y biologicas, donde se destaca el analisis grafico. Hay 43 ejercicios en total. 

Capftulo 15: Experimentos factoriales 2 k y fracciones 

Desde el inicio de este capftulo se agrega nuevo material para destacar e ilustrar 
el papel de los disenos de dos niveles como experimentos de investigation. Estos a 
menudo son parte de un plan secuencial, en el cual el cientffico o ingeniero intenta 
aprender acerca del proceso, evaluar el papel de los factores implicados y generar 
conocimiento que ayude a determinar la region mas fructffera de experimentation. 
La nocion de los disenos fraccionales factoriales se desarrolla desde el principio del 
capftulo. 

La nocion de “efectos” y los procedimientos graficos que se utilizan para determi- 
nar los “efectos activos” se estudian con mayor detalle usando ejemplos. El capftulo 
utiliza considerablemente mas ilustraciones graficas y demostraciones geometricas 
para generar los conceptos tanto para los factoriales enteros como para los fraccio- 
nales. Ademas, los graficos se utilizan para ilustrar la information disponible sobre 
falta de ajuste, cuando uno aumenta el diseno de dos niveles con corridas centrales. 

En el desarrollo y discusion de los disenos factoriales fraccionales, el procedimien- 
to para construir la fraction se simplified de forma considerable y se diseno de tal for- 
ma que apela mucho mas a la intuition. Las “columnas agregadas” que se seleccionan 
de acuerdo con la estructura deseada se utilizan con varios ejemplos. Pensamos que 
el lector ahora lograra obtener una mejor comprension de lo que se gana (y se pier- 
de) con el uso de las fracciones. Esto representa rma simplification fundamental con 
respecto a la edition anterior. Por primera vez, se presenta una tabla sustancial que 
permite al lector construir disenos de dos niveles con resolution hi y rv. Se agregaron 
18 nuevos ejercicios a este capftulo, para dar un total de 50. 

Capftulo 16: Estadfstica no parametrica 

No se realizaron cambios fundamentales. El numero total de ejercicios es de 41. 


Capftulo 17: Control estadfstico de la calidad 

No se realizaron cambios fundamentales. El numero total de ejercicios es de 10. 

Capftulo 18: Estadfstica bayesiana (opcional) 

Este capftulo es completamente nuevo en la octava edition. El material sobre esta- 
dfstica bayesiana en la septima edition (que se inclufa en el capftulo 9) se elimino 
para presentar este tema en un capftulo especial. 

El capftulo trata los elementos pragmaticos y sumamente utiles de la estadfstica 
bayesiana, sobre los que los estudiantes de ciencias e ingenierfa deberfan tener cono- 
cimiento. El capftulo presenta el importante concepto de la probabilidad subjetiva 
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en conjuncion con la notion de que, en muchas aplicaciones, los parametros pobla- 
cionales son verdaderamente inconstantes, aunque deben tratarse como variables 
aleatorias. La estimation puntal y por intervalos se estudia desde un punto de vista 
bayesiano, y se presentan ejemplos practicos. Este capitulo es relativamente corto 
(10 paginas) y contiene 9 ejemplos y 11 ejercicios. 
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Capitulo 1 

Introduccion a la estadistica 
y al analisis de datos 

1.1 Panorama general: Inferencia estadistica, muestreo, 
poblaciones y diseno experimental 

Desde inicios de la decada de 1980 y hasta la actualidad, se ha puesto un interes 
especial en el mejoramiento de la calidad en la industria estadounidense y de todo 
el mundo. Se ha dicho y escrito mucho acerca del “milagro industrial” japones 
que comenzo a mediados del siglo xx. Los nipones fueron capaces de tener exito 
donde otras naciones fallaron; a saber, en la creacion de un entorno que permita la 
manufactura de productos de alta calidad. Gran parte del exito japones se atribu- 
ye al uso de metodos estadisticos y del pensamiento estadi'stico entre el personal 
gerencial. 


Empleo de datos cientificos 

El uso de metodos estadisticos en la manufactura, el desarrollo de productos alimen- 
ticios, el software para computadoras, los medicamentos y muchas otras areas im- 
plican el acopio de informacion o datos cientificos. Por supuesto que la obtencion 
de datos no es algo nuevo, ya que se ha realizado por mas de mil ahos. Los datos 
se han recabado, resumido, reportado y almacenado para su examen cuidadoso. 
Sin embargo, hay una diferencia profunda entre recabar informacion cientffica y 
la estadistica inferencial. Esta ultima ha recibido atencion legftima durante las 
ultimas decadas. 

La estadistica inferencial genero un numero enorme de “herramientas” de meto- 
dos estadisticos que utilizan los profesionales de la estadistica. Los metodos estadis- 
ticos se disenan para contribuir al proceso de realizar juicios cientificos frente a la 
incertidumbre y a la variacion. Dentro del proceso de manufactura la densidad 
de producto de un material especifico no siempre sera la misma. De hecho, si se tra- 
ta de un proceso discontinue en vez de uno continuo, habra variacion en la densi- 
dad de material no solo entre los lotes (variacion de un lote a otro) que salen de la linea 
de produccion, sino tambien dentro de ellos. Los metodos estadisticos se utilizan 
para analizar datos de procesos como el anterior, para tener una mejor orientacion 
respecto de donde realizar mejoras a la calidad del proceso mismo. Aqui la calidad 
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podri'a definirse segun su cercam'a con el valor de la densidad met a en relation con la 
proportion de las veces que se cumple tal criterio de cercam'a. A un ingeniero podri'a 
interesarle un instrumento especffico que se utilice para medicion del monoxido de 
azufre en estudios sobre la contamination atmosferica. Si el ingeniero tiene duda 
respecto de la eficacia del instrumento, hay dos fuentes de variation con las cua- 
les debe despejarla. La primera es la variacion en los valores de monoxido de azufre 
que se encuentran en el mismo lugar el mismo di'a. La segunda es la variacion entre 
los valores observados y el monoxido de azufre real que haya en el aire en ese mo- 
mento. Si cualquiera de ambas fuentes de variacion es extraordinariamente grande 
(segun algun estandar determinado por el ingeniero), quiza se necesite reemplazar el 
instrumento. En un estudio biomedico de un nuevo farmaco que reduce la hiperten- 
sion, 85% de los pacientes experimentaron alivio; mientras que se reconoce que, por 
lo general, el medicamento “viejo” o actual alivia a 80% de los pacientes que sufren 
hipertension cronica. No obstante, el nuevo farmaco es mas caro de elaborar y qui- 
zas ocasione algunos efectos colaterales. ^Deberia adoptarse el nuevo medicamento? 
Se trata de un problema que a menudo se encuentra (a veces con mucha mayor 
complejidad) en la relation entre las empresas farmaceuticas y la fda (Federal Drug 
Administration). De nuevo, necesita tomarse en cuenta la variacion. El valor de 
85% se basa en cierto numero de pacientes seleccionados para el estudio. Tal vez si 
se repitiera el estudio con nuevos pacientes jel numero observado de “exitos” seria 
de 75%! Se trata de una variacion natural de un estudio a otro que debe tomarse 
en cuenta para el proceso de toma de decisiones. Es evidente que tal variacion es 
importante porque una variacion de un paciente a otro es endemica al problema. 

Variabilidad en los datos cientificos 

En los problemas discutidos anteriormente los metodos estadisticos empleados tienen 
que ver con la variabilidad y en cada caso la variabilidad que se estudia se encuentra 
en datos cientificos. Si la densidad del producto observada en el proceso es siempre 
la misma y siempre es la esperada, no habria necesidad de metodos estadisticos. Si 
el dispositivo para medir el monoxido de azufre siempre diera el mismo valor y este 
fuera exacto (es decir, correcto), no se requeriria analisis estadistico. Si no hubiera 
variabilidad de un paciente a otro inherente a la respuesta al medicamento (es decir, 
si siempre el farmaco causara alivio o no) , la vida seria muy sencilla para los cientifi- 
cos de la industria farmaceutica y para la fda y los estadisticos no serian necesarios 
en el proceso de toma de decisiones. La estadistica inferencial ha originado un gran 
numero de metodos analiticos que permiten efectuar analisis de datos obtenidos de 
sistemas como los que se describen anteriormente, lo cual rcfleja la verdadera natu- 
raleza de la ciencia que conocemos como estadistica inferencial; a saber, el uso de 
tecnicas que nos permiten ir mas alia de solo reportar datos, ya que nos permiten 
obtener conclusiones (o inferencias) sobre el sistema cientifico. Los estadisticos usan 
leyes fundamentales de probabilidad e inferencia estadistica para sacar conclusiones 
respecto de los sistemas cientificos. La information se colecta en forma de mues- 
tras, o agrupaciones de observaciones. En el capitulo 2 se introduce el proceso de 
muestreo, cuyo estudio continua a lo largo de todo el libro. 

Las muestras se reunen a partir de poblaciones, que son agrupaciones de todos 
los individuos o elementos individuales de un tipo especifico. A veces una pobla- 
cion representa un sistema cientifico. Por ejemplo, un fabricante de tarjetas para 
computadora quiza desee eliminar defectos. Un proceso de muestreo implicaria la 
recoleccion de information de 50 tarjetas de computadora tomadas aleatoriamente 
durante el proceso. Aqui, la poblacion serian todas las tarjetas de computadora pro- 
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ducidas por la empresa en un periodo especffico. En un experimento con farmacos, 
se toma una muestra de pacientes y a cada uno se le administra un medicamento 
especffico para reducir la presion sanguinea. El interes se enfoca en la obtencion de 
conclusiones sobre la poblacion de quienes sufren hipertension. Si se logra una me- 
joria en el proceso de production de las tarjetas para computadora y se reune una 
segunda muestra de tarjetas, cualesquiera conclusiones que se obtengan respecto de la 
efectividad del cambio en el proceso deberfa extenderse a toda la poblacion de tarje- 
tas para computadora que se produzcan bajo el “proceso mejorado”. 

A menudo, es muy importante el acopio de datos cientfficos en forma sistemati- 
ca, cuando la planeacion ocupa un lugar importante en la agenda. En ocasiones la 
planeacion esta, por necesidad, bastante limitada. Con frecuencia nos enfocamos en 
ciertas propiedades o caracteri'sticas de los elementos u objetos de la poblacion. Tal 
caracteristica tiene importancia de ingenieri'a especffica o, digamos, biologica para el 
“cliente”: el cientffico o el ingeniero que busca aprender algo acerca de la poblacion. 
Por ejemplo, en uno de los casos anteriores, la calidad del proceso tenia relation 
con la densidad del producto cuando sale del proceso. Un ingeniero podrfa necesitar 
estudiar el efecto de las condiciones del proceso, la temperatura, la humedad, la 
cantidad de un ingrediente particular, etcetera. El o ella quiza muevan de manera 
sistematica estos factores a cualesquiera niveles que se sugieran, de acuerdo con 
cualquier prescription o diseno experimental que se desee. Sin embargo, un cien- 
tffico silvicultor que esta interesado en un estudio de los factores que influyen en la 
densidad de la madera en cierta clase de arbol no necesariamente tiene que disenar un 
experimento. En este caso quiza requiera un estudio observacional, en el cual los 
datos se acopien en el campo, pero no se pueden seleccionar de antemano los niveles 
de los factores. Ambos tipos de estudios se prestan a los metodos de la inferencia 
estadistica. En el primero, la calidad de las inferencias dependera de la planeacion 
adecuada del experimento. En el ultimo, el cientffico esta a expensas de lo que pueda 
recopilar. Por ejemplo, resulta inadecuado si un agronomo se interesa en estudiar 
el efecto de la lluvia sobre la production de plantas y los datos se obtienen durante 
una sequia. 

Es necesario entender la importancia del pensamiento estadistico para los ad- 
ministradores y el uso de la inferencia estadistica para el personal cientffico. Los 
investigadores obtienen mucho de los datos cientfficos. Los datos brindan una com- 
prension del fenomeno cientffico. Los ingenieros de producto y de procesos aprenden 
mas en sus esfuerzos fuera de linea para mejorar el proceso. Tambien logran una 
comprension valiosa al reunir datos de production (monitoreo on line ) con una base 
regular, lo cual permite la determination de las modificaciones necesarias con la 
finalidad de mantener el proceso en el nivel de calidad deseado. 

En ocasiones un cientffico solo desea obtener alguna clase de resumen del conjun- 
to de datos representados en la muestra. En otras palabras, no utiliza la estadisti- 
ca inferential. En cambio, le serian utiles un conjunto de estadisticos o estadistica 
descriptiva. Tales numeros ofrecen un sentido del centro de ubicacion de los datos, 
de la variabilidad en los datos y de la naturaleza general de la distribution de ob- 
servaciones en la muestra. Aunque no se incorporen metodos estadisticos especfficos 
que lleven a la inferencia estadistica, se puede aprender mucho. A veces la esta- 
distica descriptiva va acompanada por graficas. El software estadistico moderno per- 
mite el calculo de medias, medianas, desviaciones estandar y otros estadisticos, 
asi como el desarrollo de graficas que presenten una “huella digital” de la naturaleza 
de la muestra. En las secciones siguientes veremos definiciones e ilustraciones de los 
estadisticos y descripciones de recursos graficos como histogramas, diagramas de 
tallo y hojas, y diagramas de punto y de caja. 
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1.2 El papel de la probabilidad 

En este libro, los capi'tulos 2 a 6 tratan de las nociones fundamentales de la probabi- 
lidad. Un estudio esmerado de las bases de tales conceptos permitira al lector lograr 
una mejor comprension de la inferencia estadlstica. Sin algo de formalismo en pro- 
babilidad, el estudiante no serla capaz de apreciar la verdadera interpretation del 
analisis de datos a traves de los metodos estadlsticos modernos. Es completamente 
natural estudiar probabilidad antes de estudiar inferencia estadlstica. Los elementos 
de probabilidad nos permiten cuantificar la fortaleza o “confianza” de nuestras con- 
clusiones. Entonces, los conceptos de probabilidad forman un componente significa- 
tive que complementa los metodos estadlsticos y ayuda a evaluar la consistencia de 
la inferencia estadlstica. Por consiguiente, la disciplina de la probabilidad brinda la 
transition entre la estadlstica descriptiva y los metodos inferenciales. Los elementos 
de la probabilidad permiten que la conclusion se exprese en un lenguaje que requie- 
ren los cientlficos y los ingenieros. El ejemplo que sigue permite al lector comprender 
la notion de un valor- P, el cual a menudo da el “fundamento” de la interpretation 
de los resultados a partir del uso de los metodos estadlsticos. 


Ejemplo 1.1:1 Suponga que un ingeniero se encuentra con datos de un proceso de production donde 
se muestrean 100 artlculos y se obtienen 10 defectuosos. Se espera que de cuando en 
cuando haya artlculos defectuosos. En efecto, los 100 artlculos representan la mues- 
tra. Sin embargo, se determina que, a largo plazo, la empresa solo puede tolerar 
5% de artlculos defectuosos en el proceso. Entonces, los elementos de probabilidad 
permiten al ingeniero determinar que tan concluyente es la information muestral 
respecto de la naturaleza del proceso. En este caso, la poblacion representa concep- 
tualmente todos los artlculos posibles en el proceso. Suponga que averiguamos que 
si el proceso es aceptable , es decir, si produce artlculos con solo 5% defectuosos, hay 
una probabilidad de 0.0282 de obtener 10 o mas artlculos defectuosos en una mues- 
tra aleatoria de 100 artlculos del proceso. Esta pequena probabilidad sugiere que el 
proceso, en realidad, tiene un porcentaje de artlculos defectuosos en el largo plazo 
que excede 5%. En otras palabras, en condiciones de un proceso aceptable, la infor- 
mation muestral que se obtuvo casi nunca ocurrirla. No obstante, jen verdad ocurrio! 
Claramente, sin embargo, ocurrirla con una probabilidad mucho mayor si la tasa de 
artlculos defectuosos del proceso excediera 5% por un monto significativo. 

De este ejemplo es evidente que los elementos de probabilidad ayudan en la 
traduction de information muestral en algo concluyente o no concluyente acerca del 
sistema cientlfico. De hecho, probablemente lo que se aprendio constituye informa- 
tion inquietante para el ingeniero o administrador. Los metodos estadlsticos (que 
examinaremos con mas detalle en el capitulo 10) produjeron un valor- P de 0.0282. 
El resultado sugiere que el proceso muy probablemente no sea aceptable. En 
los capi'tulos siguientes se trata detenidamente el concepto de valor-P. El ejemplo 
que sigue brinda una segunda ilustracion. 


Ejemplo 1.2:1 Con frecuencia la naturaleza del estudio cientlfico senalara el papel que juegan la 
probabilidad y el razonamiento deductivo en la inferencia estadlstica. El ejercicio 
9.40 en la pagina 297 proporciona datos asociados con un estudio que se llevo a cabo 
en el Instituto Politecnico y Universidad Estatal de Virginia, acerca del desarrollo de 
una relation entre las ralces de los arboles y la action de un hongo. Se transfirieron 
minerales de los hongos a los arboles, y azucares de los arboles al hongo. Se planta- 
ron dos muestras de 10 plantones de roble rojo norteno en un invernadero: una que 
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contema plantones tratados con nitrogeno y una muestra de plantones sin trata- 
miento. Todas las demas condiciones ambientales se mantuvieron constantes. Todos 
los plantones conteman el hongo Pisolithus tinctorus. En el capi'tulo 9 se incluyen 
mas detalles. Los pesos en gramos de los tallos se registraron al finalizar 140 di'as. 
Los datos se presentan en la tabla 1.1. 


Tabla 1.1: Conjunto de datos del ejemplo 1.2 


Sin nitrogeno 

Con nitrogeno 

0.35 

0.26 

0.53 

0.43 

0.28 

0.47 

0.37 

0.49 

0.47 

0.52 

0.43 

0.75 

0.36 

0.79 

0.42 

0.86 

0.38 

0.62 

0.43 

0.46 


En este ejemplo hay dos muestras tomadas de dos poblaciones distintas. La 
finalidad del experimento consiste en determinar si el uso del nitrogeno tiene in- 
fluencia sobre el crecimiento de las rai'ces. Se trata de un estudio comparativo (es 
decir, se busca comparar las dos poblaciones en cuanto a ciertas caracteri'sticas im- 
portantes). Es conveniente graficar los datos como se indica en la figura 1.1. Los 
valores o representan los datos “con nitrogeno” y los valores x representan los da- 
tos “sin nitrogeno” . Asi, el proposito de este experimento es determinar si el uso de 
nitrogeno tiene influencia en el crecimiento de las rai'ces. Note que la apariencia 
general de los datos podria sugerir al lector que, en promedio, el uso del nitrogeno 
aumenta el peso del tallo. Cuatro observaciones con nitrogeno son considerablemen- 
te mas grandes que cualquiera de las observaciones sin nitrogeno. La mayori'a de las 
observaciones sin nitrogeno parece estar por debajo del centro de los datos. La apa- 
riencia del conjunto de datos parecen'a indicar que el nitrogeno es efectivo. Pero, 
^como se cuantifica esto? iComo se resume toda la evidencia visual aparente con 
algun significado? Como en el ejemplo anterior, se pueden utilizar los fundamentos 
de la probabilidad. Las conclusiones se resumen en una declaracion de probabilidad 
o valor- P. Aquf no demostraremos la inferencia estadi'stica que produce la probabi- 
lidad resumida. Como en el ejemplo 1.1, tales metodos se estudiaran en el capi'tulo 
10. El problema gira alrededor de la “probabilidad de que datos como estos se pue- 
dan observar”, dado que el nitrogeno no tiene efecto ; en otras palabras, puesto que 
ambas muestras se generaron a partir de la misma poblacion. Suponga que esta pro- 
babilidad es pequena, digamos de 0.03; esta serfa con certeza suficiente evidencia de 
que el uso del nitrogeno en realidad influye (aparentemente lo aumenta) en el peso 
promedio del tallo en los plantones de roble rojo. 


^Como trabajan juntas la probabilidad y la inferencia estadistica? 

Para el lector es importante distinguir claramente entre la disciplina de la probabi- 
lidad, una ciencia por clerecho propio, y la disciplina de la estadi'stica inferencial. 


6 


Capitulo 1 Introduction a la estadlstica y a 1 analisis de datos 


|_o_j £ — | — x poo* — | — xx — | nx n | — cut — | 1 — a 1 1 9 °-| b° 1 

0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 

Figura 1.1: Datos de peso del tallo. 


Como senalamos, el uso o la aplicacion de conceptos de probabilidad permiten 
una interpretation de la vida cotidiana de los resultados de la inferencia estadisti- 
ca. Entonces, se afirma que la inferencia estadistica emplea los conceptos de proba- 
bilidad. A partir de los dos ejemplos anteriores, se puede saber que la information 
muestral esta disponible para el analista y, con la ayuda de metodos estadfsticos y 
elementos de probabilidad, se obtienen conclusiones acerca de alguna caracteristica 
de la poblacion. (El proceso no parece ser aceptable en el ejemplo 1.1 y el nitrogeno 
en verdad influye en el peso promedio de los tallos del ejemplo 1.2.) Asf, para un 
problema estadistico, tanto la muestra como la estadistica inferencial nos 
permiten obtener conclusiones acerca de la poblacion, de manera que la 
estadistica inferencial utiliza ampliamente los elementos de probabilidad. 
Tal razonamiento es inductivo por naturaleza. Ahora conforme avancemos hacia 
el capitulo 2 y mas adelante, el lector encontrara que a diferencia de nuestros 
dos ejemplos actuales, no nos enfocaremos en resolver problemas estadfsticos. En 
muchos de los ejemplos que estudiaremos no se utilizaran muestras. Se describira 
claramente una poblacion con todas sus caracterfsticas. Luego las preguntas im- 
portantes se enfocaran en la naturaleza de los datos que hipoteticamente podrfan 
obtenerse a partir de la poblacion. Entonces, los problemas de probabilidad 
nos permiten obtener conclusiones acerca de las caracterfsticas de los 
datos hipoteticos que se tomen de la poblacion con base en las caracte- 
rfsticas conocidas de la poblacion. Esta clase de razonamiento es deductivo por 
naturaleza. La figura 1.2 muestra las relaciones basicas entre la probabilidad y la 
estadistica inferencial. 



Figura 1.2: Relaciones basicas entre la probabilidad y la estadistica inferencial. 

Ahora, en terminos generales, ^cual es mas importante, el campo de la pro- 
babilidad o el de la estadistica? Ambos son muy importantes y evidentemente se 
complementan. La unica certeza respecto de la didactica de ambas disciplinas reside 
en el hecho de que si la estadistica debe enseharse con un nivel mayor que el de un 
simple “libro de cocina”, entonces tiene que enseharse primero la disciplina de la 
probabilidad. Esta regia se deriva de la notion de que nada puede aprenderse sobre 
una poblacion a partir de una muestra, hasta que el analista aprenda los rudimentos 
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de incertidumbre en esa muestra. Considere el ejemplo 1.1, la pregunta se centra 
en torno de si la poblacion, definida por el proceso, tiene o no mas de 5% elementos 
defectuosos. En otras palabras, la suposicion es que en promedio 5 de cada 100 
articulos salen defectuosos. Ahora la muestra contiene 100 arti'culos y 10 estan de- 
fectuosos. ^Esto apoya la suposicion o la refuta? Aparentemente se trataria de una 
refutation de la suposicion, pues 10 de cada 100 pareceria ser “bastante”. Pero sin 
nociones de probabilidad, ^como lo sabriamos? Solo mediante el estudio del material 
de los siguientes capitulos aprenderemos que a condition de que el proceso sea acep- 
table (5% de defectuosos), la probabilidad de obtener 10 o mas arti'culos defectuosos 
en una muestra de 100 es de 0.0282. 

Dimos dos ejemplos donde los elementos de probabilidad ofrecen un resumen 
que el cientifico o el ingeniero pueden usar como evidencia sobre la cual basar una 
decision. El puente entre los datos y la conclusion esta, por supuesto, basado en los 
fundamentos de la inferencia estadistica, la teoria de la distribution y las distribu- 
ciones de muestreos que se examinan en futures capitulos. 


1.3 Procedimientos de muestreo; acopio de los datos 

En la section 1.1 estudiamos muy brevemente la notion de muestreo y del proceso de 
muestreo. Mientras que el muestreo aparece como un concepto simple, la compleji- 
dad de las preguntas que deben contestarse acerca de la poblacion o las poblaciones, 
en ocasiones requiere que el proceso de muestreo sea muy complejo. Mientras que la 
notion de muestreo se examina con cletalles en el capitulo 8, aqui nos esforzaremos 
por dar algunas nociones de sentido comun sobre el muestreo. Se trata de una tran- 
sition natural hacia el analisis del concepto de variabilidad. 

Muestreo aleatorio simple 

La importancia del muestreo adecuado gira en torno del grado de confianza con 
que el analista es capaz de responder las preguntas que se le formulan. Suponga- 
mos que solo hay una poblacion en el problema. Recuerde que en el ejemplo 1.2 habia 
dos poblaciones implicadas. El muestreo aleatorio simple significa que cualquier 
muestra dada de un tamano muestral especifico tiene la misma probabilidad de ser 
seleccionada que cualquier otra muestra del mismo tamano. El termino tamano 
muestral simplemente indica el numero de elementos en la muestra. Evidentemen- 
te en muchos casos es posible utilizar una tabla de numeros aleatorios al seleccionar 
la muestra. La ventaja del muestreo aleatorio simple radica en que ayuda en la 
elimination del problema de tener una muestra que refleje una poblacion diferente 
(quiza mas restringida) de aquella sobre la cual se necesitan realizar las inferencias. 
Por ejemplo, se elige una muestra para contestar diferentes preguntas respecto de las 
preferencias politicas en cierta entidad del pais. La muestra implica la election, diga- 
mos, de 1000 familias a las cuales aplicar una encuesta. Ahora suponga que resulta 
que no se utiliza el muestreo aleatorio. Mas bien, todas o casi todas las 1000 familias 
se eligen de una zona urbana. Se considera que las preferencias politicas en las areas 
rurales difieren de las de las areas urbanas. En otras palabras, la muestra obtenida 
en realidad limito a la poblacion y, por lo tanto, las inferencias tambien tendran 
que restringirse a la “poblacion limitada”, por lo que en este caso tal confinamiento 
podria volverse indeseable. Si, de hecho, las inferencias necesitan hacerse respecto de 
la entidad en su conjunto, la muestra cuyo tamano son 1000 familias que se utiliza 
aqui a menudo se conoce como muestra sesgada. 
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Como sugerimos anteriormente, el muestreo aleatorio simple no siempre resulta 
adecuado. El enfoque alternative que se utilice dependera de la complejidad del 
problema. Con frecuencia, por ejemplo, las unidades muestrales no son homogeneas 
y naturalmente se dividen en grupos que no se traslapan que son homogeneos. Tales 
grupos se Hainan estratos, y un procedimiento llamado muestreo aleatorio estratifi- 
cado implica la selection al azar de una muestra dentro de cada estrato. El proposito 
consiste en asegurarse que cada uno de los estratos no este ni sobrerrepresentado ni 
subrepresentado. Por ejemplo, suponga que se encuesta a una muestra para reunir 
information preliminar sobre un referendum que se piensa realizar en determinada 
ciudad. La ciudad se subdivide en varios grupos etnicos que representan estratos 
naturales y, para no excluir ni sobrerrepresentar a algun grupo de cada uno de ellos, 
podrian elegirse muestras aleatorias separadas de cada grupo. 

Diseno experimental 

El concepto de aleatoriedad o asignacion aleatoria juega un papel muy importante 
en el area del diseno experimental, el cual se introdujo brevemente en la section 
1.1 y es un fundamento muy importante en casi cualquier area de la ingenieria y de 
la ciencia experimental. Lo estudiaremos con detenimiento en los capitulos 13 a 15. 
No obstante, seria util dar aqui una breve introduction en el contexto del muestreo 
aleatorio. Un conjunto de tratamientos o combinaciones de tratamientos se 
vuelven las poblaciones que van a estudiarse o a compararse en algun sentido. Un 
ejemplo es el tratamiento “con nitrogeno” versus “sin nitrogeno” del ejemplo 1.2. 
Otro ejemplo sencillo seria el “placebo” versus “medicamento activo”; o en un es- 
tudio sobre la fatiga por corrosion, tendriamos combinaciones de tratamientos que 
impliquen especimen con recubrimiento o sin recubrimiento, asi como condiciones 
de alta o de baja humedad, a las cuales se somete el especimen. De hecho, hay cua- 
tro combinaciones de factores o de tratamientos (es decir, 4 poblaciones), y quiza 
se formulen y se respondan muchas preguntas usando los metodos estadisticos e 
inferenciales. Considere primero la situation del ejemplo 1.2. Hay 20 plantones en- 
fermos implicados en el experimento. A partir de los datos es facil observar que los 
plantones son diferentes entre si. Dentro del grupo con nitrogeno (o del grupo sin 
nitrogeno) hay variabilidad considerable en el peso de los tallos, la cual se debe a 
lo que, por lo general, se denomina unidad experimental. Este es un concepto muy 
importante en la estadistica inferential, cuya description no termina en este capi- 
tulo. La naturaleza de la variabilidad es muy importante. Si es demasiado grande, 
derivada de una condition de fait a de homogeneidad excesiva en las unidades expe- 
rimentales, la variabilidad “eliminara” cualquier diferencia detectable entre ambas 
poblaciones. Recuerde que en este caso eso no ocurrio. 

La grafica de puntos de la figura 1.1 y el valor- P indican una clara distincion 
entre esas dos condiciones. Pero ^que papel juegan tales unidades experimentales en el 
proceso mismo de acopio de los datos? El enfoque por sentido comrin y, de hecho, 
estandar es asignar los 20 plantones o unidades experimentales aleatoriamente a 
las dos condiciones o tratamientos. En el estudio del medicamento quiza deci- 
damos utilizar un total de 200 pacientes disponibles, quienes seran claramente dis- 
tinguibles en algun sentido. Ellos son las unidades experimentales. No obstante, tal 
vez todos tengan una condition cronica para la cual el farmaco sea un tratamiento 
potencial. Asi en el denominado diseno completamente aleatorio, se asignan al 
azar 100 pacientes al placebo y 100 al medicamento activo. De nuevo, son estas uni- 
dades experimentales en el grupo o tratamiento las que producen la variabilidad en 
el resultado de los datos (es decir, la variabilidad en el resultado medido), digamos, 


1.3 Procedimientos de muestreo; acopio de los datos 


9 


la presion sangufnea; o cualquier valor de la eficacia de un medicamento que sea 
importante. En el estudio de la fatiga por corrosion, las unidades experimentales son 
los especnnenes que se someten a la corrosion. 


^Por que las unidades experimentales se asignan aleatoriamente? 

^Cual es la posible influencia negativa de no asignar aleatoriamente las unidades 
experimentales a los tratamientos o a las combinaciones de tratamientos? Esto se 
observa mas claramente en el caso del estudio del medicamento. Entre las caracte- 
rfsticas de los pacientes que producen variabilidad en los resultados estan la edad, el 
genero, el peso, etcetera. Tan solo suponga que por casualidad el grupo del placebo 
contiene una muestra de personas que son predominantemente mas obesas que las 
del grupo del tratamiento. Quiza los individuos mas obesos muestren una tendencia 
a tener mayor presion sangufnea, lo cual evidentemente sesga el resultado y, por 
lo tanto, cualquier resultado que se obtenga mediante la aplicacion de la inferencia 
estadfstica podrfa tener poco que ver con el efecto del medicamento, pero mucho con 
las diferencias en el peso de ambas muestras de pacientes. 

Deberfamos enfatizar la importancia del termino variabilidad. La variabilidad 
excesiva entre las unidades experimentales “disfraza” los hallazgos cientfficos. En 
secciones posteriores intentaremos clasificar y cuantificar las medidas de variabili- 
dad. En las siguientes secciones presentaremos y estudiaremos cantidades especfficas 
que se calculan a partir de las muestras; las cantidades dan un sentido de la natu- 
raleza de la muestra respecto del centro de ubicacion de los datos y la variabilidad 
de los mismos. Un analisis de varias de tales medidas de un solo numero ofrece un 
preambulo de los componentes importantes de la information estadfstica en los meto- 
dos estadfsticos que se utilizan en los capftulos 8 a 15. Se trata de medidas que ayudan 
a clasificar la naturaleza del conjunto de datos que caen en la categorfa de estadfs- 
tica descriptiva. Este material es una introduction a una presentation breve de 
los metodos pictoricos y graficos que van incluso mas alia en la caracterizacion del 
conjunto de datos. El lector deberfa entender que los metodos estadfsticos que se 
presentan aquf se utilizaran a lo largo de todo el texto. Para tener una imagen mas 
clara de lo que implican los estudios de cliseno experimental, tenemos el siguiente 
ejemplo. 


Ejemplo 1.3:1 Se realizo un estudio sobre la corrosion con la finalidad de determinar si un metal 
de aluminio recubierto con una sustancia retardadora de la corrosion reducfa la can- 
tidad de la corrosion. El recubrimiento es un protector que se publicita como que 
minimiza el dano por fatiga en esta clase de material. La influencia de la humedad 
sobre la magnitucl de la corrosion tambien es de interes. Una medicion de la corro- 
sion puede expresarse en millares de ciclos hasta ruptura. Se utilizaron dos niveles de 
recubrimiento: sin recubrimiento y con recubrimiento qufmico contra la corrosion. 
Ademas, los dos niveles de humedad relativa son de 20 y 80%, respectivamente. 

El experimento implica cuatro combinaciones de tratamientos que se listan en la 
siguiente tabla. Hay ocho unidades experimentales que se usaran y son especnnenes 
de aluminio preparados, de los cuales dos se asignan aleatoriamente a cada una de 
las cuatro combinaciones de tratamiento. Los datos se presentan en la tabla 1.2. 

Los datos de la corrosion son promedios de los dos especnnenes. En la figura 1.3 
se presenta una grafica con los promedios. Un valor relativamente grande de ciclos 
hasta ruptura representa una cantidad pequena de corrosion. Como podrfa esperar- 
se, parece que un incremento en la humedad hace que empeore la corrosion. Ademas, 
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Tabla 1.2: Datos para el ejemplo 1.3 


Recubrimiento 

Humedad 

Promedio de corrosi?n en 
miles de ciclos hasta ruptura 


9.0% 

073 

Sin recubrimiento 


80% 

350 


90% 

1730 

Con recubrimiento quimico 

contra la corrosion 

80% 

1550 



Figura 1.3: Resultados de corrosion para el ejemplo 1.3. 


parece que el uso del procedimiento de recubrimiento qufmico contra la corrosion 
reduce la corrosion. 

En este caso de diseno experimental, el ingeniero eligio sistematicamente las 
cuatro combinaciones de tratamiento. Para vincular esta situation con los concep- 
tos con los cuales el lector ha estado familiarizado hasta aquf, deberfamos suponer 
que las condiciones que representan las cuatro combinaciones de tratamientos son 
cuatro poblaciones separadas y que los dos valores de corrosion observados en cada 
una de las poblaciones constituyen importantes piezas de information. La impor- 
tancia del promedio al captar y resumir ciertas caracteristica en la poblacion se 
destacara en la section 1.4. Mientras seamos capaces de obtener conclusiones acer- 
ca del papel de la humedad y del impacto de recubrir el especimen a partir de la 
figura, no podremos evaluar en realidad los resultados a partir de cualquier punto 
de vista analftico sin tomar en cuenta la variabilidad alrededor del promedio. De 
nuevo, como sehalamos anteriormente, si los dos valores de corrosion en cada una 
de las combinaciones de tratamientos son muy cercanos, la imagen de la figura 1.3 
podrfa ser una description precisa. Pero si cada valor de la corrosion en la figura 
es un promedio de dos valores que estan ampliamente clispersos, entonces esta 
variabilidad podrfa, de hecho, verdaderamente “eliminar” cualquier information 
que parezca difundirse cuando uno tan solo observa los promedios. Los siguientes 
ejemplos ilustran los conceptos: 
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1. La asignacion aleatoria a las combinaciones de tratamientos (recubrimiento/ 
humedad) de las unidades experiment ales (especimenes) 

2. El uso de promedios muestrales (valores de corrosion promedio) para resumir 
la information muestral 

3. La necesidad de considerar las medidas de variabilidad en el analisis de cual- 
quier nuestra o conjunto de muestras 

Este ejemplo sugiere la necesidad del tema de las secciones 1.4 y 1.5, es decir, la 
estadistica descriptiva que indica las medidas del centro de ubicacion en un conjunto 
de datos, y aquellas que miden la variabilidad. 


1.4 Medidas de posicion: La media y la mediana de una muestra 

En un conjunto de datos las medidas de posicion estan clisenadas para brindar 
al analista alguna medida cuantitativa de clonde esta el centro de los datos en 
una muestra. En el ejemplo 1.2 parece como si el centro de la muestra con ni- 
trogeno claramente excediera al de la muestra sin nitrogeno. Una medida obvia 
y muy util es la media de la muestra. La media es simplemente un promedio 
numerico. 


Definition 1.1: 

Suponga que las observaciones en una muestra son xi, X 2 , ■ ■ 
muestra, que se clenota con x, es 

. , x n - La media de la 


n 

_ Xi X\ + #2 H - * ' * “b %n 

x = y = 

n n 

i = 1 



Hay otras medidas de tendencia central que se explican con detalle en capitulos 
posteriores. Una medida importante es la mediana de la muestra. El proposito de 
la mediana de la muestra es reflcjar la tendencia central de la muestra, de manera 
que no este influida por los valores extremos. Dado que las observaciones en una mues- 
tra son x\, X 2 , ■ ■ ■ , x n , acomodados en orden de magnitud creciente, la mediana de la 
muestra es 


•E(n+ 1 )/ 2 > 

2^n/2 ^n/2-f-l)> 


si n es irnpar, 
si n es par. 


Por ejemplo, supongamos que el conjunto de datos es el siguiente: 1.7, 2.2, 3.9, 3.11 
y 14.7. La media y la mediana de la muestra son, respectivamente, 

x = 5.12, x = 3.9. 

Es evidente que la media esta influida de manera considerable por la presencia de 
la observation extrema, 14.7; en tanto que el lugar de la mediana hace enfasis en el 
verdadero “centro” del conjunto de datos. En el caso del conjunto de datos de dos 
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muestras del ejemplo 1.2, las dos medidas de tendencia central para las muestras 
individuales son 

x (sin nitrogeno) 

x (sin nitrogeno) 

x (con nitrogeno) 

x (con nitrogeno) 

Hay una diferencia de concepto evidente entre la media y la mediana. Para el lector 
con ciertas nociones de ingenierfa quiza sea de interes que la media de la muestra es 
el centroide de los datos en una muestra. En cierto sentido es el punto donde se 
puede colocar un fulcro para equilibrar un sistema de “pesos” , que son las posiciones 
de los datos individuales. Esto se muestra en la figura 1.4 respecto de la muestra 
“con nitrogeno”. 


= 0.399 gramos, 

0.38 + 0.42 „ _ 

= = 0.400 gramos, 

= 0.565 gramos, 

0.49 + 0.52 

= = 0.505 gramos. 


+ 


+ 


+ 


x = 0.565 

i — t. 


+ 


+ 


4 - 


4- 


+ 


+ 


0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 

Figura 1.4: Media de la muestra como centroide del peso del tallo “con nitrogeno”. 


En capftulos futuros, la base para el calculo de x es un estimado de la media 
de la poblacion. Como senalamos anteriormente, el proposito de la inferencia es- 
tadtstica es obtener conclusiones acerca de las caracterfsticas o parametros de la 
poblacion, y la estimacion es una caracteristica muy importante de la inferencia 
estadistica. 

La mediana y la media llegan a ser muy diferentes entre si. Note, sin embargo, 
que en el caso de los datos del peso de los tallos, el valor de la media de la muestra 
para “sin nitrogeno” es bastante similar al valor de la mediana. 

Otras medidas de posicion 

Hay otros metodos para calcular el centro de ubicacion de los datos en la muestra. 
No los trataremos en este momento. Por lo general, las alternativas para la media de 
la muestra se disenan para generar valores que representen relacion entre la media y la 
mediana. Rara vez utilizamos alguna de tales medidas. No obstante, es aleccionador 
estudiar una clase de estimadores conocida como media recortada, la cual se calcu- 
la “quitando” cierto porcentaje de los valores mayores y menores del conjunto. Por 
ejemplo, la media recortada 10% se encuentra eliminando tanto el 10% de los valores 
mayores como de los menores, y calculando el promedio de los valores restantes. Por 
ejemplo, en el caso de los datos del peso de los tallos eliminariamos el valor mas alto 
y el mas bajo, ya que el tamano de la muestra es 10 en cada caso. De manera que 
para el grupo sin nitrogeno la media recortada 10% esta dado por 

0.32 + 0.37 + 0.47 + 0.36 + 0.42 + 0.38 + 0.43 „ _ 

*tr(io) = o = 0.39750, 
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y para la media recortada 10% del grupo con nitrogeno tenemos 


0.43 + 0.47 + 0.49 + 0.52 + 0.75 + 0.79 + 0.62 + 0.46 
x tr(io) - o 


0 . 56625 . 


Observe que en este caso, como se esperaba, las medias recortadas estan cerca tanto 
de la media como de la mediana para las muestras individuales. Desde luego, el en- 
foque de la media recortada es menos sensible a los valores extremos que la media 
de la muestra; pero no tan insensible como la mediana. Por otro lado, el enfoque de 
la media recortada utiliza mayor information. Note que la mediana de la muestra 
es, de hecho, un caso especial de la media recortada, en el cual se eliminan todos los 
datos de la muestra y queda solo el central o dos observations. 


Ej ercicios 


1.1 Se registran las siguientes mediciones para el tiem- 
po de secado (en lioras) de cierta marca de pintura es- 
maltada. 


3.4 

2.5 

4.8 

2.9 

3.6 

2.8 

3.3 

5.6 

3.7 

2.8 

4.4 

4.0 

5.2 

3.0 

4.8 


Suponga que las mediciones constituyen una muestra 
aleatoria simple. 

a) ^Cual es el tamaiio de la muestra anterior? 

b) Calcule la media de la muestra para estos datos. 

c) Calcule la mediana de la muestra. 

d) Grafique los datos utilizando una grafica de puntos. 

e) Calcule la media recortada 20% para el conjunto de 
datos anterior. 


sistencia a la tension de los especimenes y se registraron 

los siguientes datos sobre resistencia a la tension en psi. 
Sin envejecimiento acelerado: 227 222 218 217 225 

218 216 229 228 221 
Con envejecimiento acelerado: 219 214 215 211 209 

218 203 204 201 205 

a) Elabore la grafica de puntos de los datos. 

b) A partir de la grafica, ^parecerfa que el proceso de enve- 
jecimiento tuvo un efecto en la resistencia a la tension 
de este polfmero? 

c) Calcule la resistencia a la tension de la media de la 
muestra en ambas muestras. 

d) Calcule la mediana de ambas. Discuta la similitud o 
falta de similitud entre la media y la mediana de cada 
grupo. 


1.2 Segun la publication Chemical Engineering , una 
propiedad importante de una libra es su absorcion del 
agua. Se toina una muestra aleatoria de 20 piezas de 
libra de algodon y se mide la impermeabilidad de cada 
una. Los valores de absorcion son los siguientes: 

18.71 21.41 20.72 21.81 19.29 22.43 20.17 

23.71 19.44 20.50 18.92 20.33 23.00 22.85 
19.25 21.77 22.11 19.77 18.04 21.12 

a) Calcule la media y la mediana de la muestra para los 
valores de la muestra anterior. 

b) Calcule la media recortada 10%. 

c) Elabore una grafica de puntos con los datos de la 
absorcion. 

1.3 Se utiliza cierto polfmero para los sistemas de eva- 
cuation de los aviones. Es importante que el polfmero 
sea resistente al proceso de envejecimiento. Se utilizaron 
veinte especimenes del polfmero en un experimento. Diez 
se asignaron aleatoriamente para exponerse al proceso 
de acelerado, el cual implica la exposition a altas tempe- 
raturas durante 10 dfas. Se hicieron las mediciones de re- 


1.4 En un estudio realizado por el Departamento de 
Ingenierfa Mecanica del Tecnologico de Virginia, se com- 
pararon las varillas de acero que abastecen dos compa- 
nfas diferentes. Se fabricaron diez resortes de muestra 
con las varillas de metal proporcionadas por cada una de 
las companfas y se registraron sus medidas de flexibili- 
dad. A continuation se presentan los datos. 


Compama A: 

9.3 

8.8 

6.8 

8.7 

8.5 


6.7 

8.0 

6.5 

9.2 

7.0 

Compaiifa B: 

11.0 

9.8 

9.9 

10.2 

10.1 


9.7 

11.0 

11.1 

10.2 

9.6 


a) Calcule la media y la mediana de la muestra para los 
datos de ambas companfas. 

b) Grafique los datos para las dos companfas en la mis- 
ma lfnea y explique su conclusion. 

1.5 Veinte adultos hombres de entre 30 y 40 anos de 
edad participaron en un estudio para evaluar el efecto 
de cierto regimen de salud, que incluye dieta y ejercicio, 
en el colesterol sangufneo. Se eligieron diez aleatoriamen- 
te para el grupo de control y los otros diez se asignaron 
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para tomar parte en el regimen como grupo de trata- 
miento durante un periodo de 6 meses. Los siguientes 
datos muestran la reduction en el colesterol que experi- 
mentaron en ese periodo los 20 sujetos: 

Grupo de control 7 3 —4 14 2 

5 22 -7 9 5 

Grupo de tratamiento: —6 5 9 4 4 

12 37 5 3 3 

a) Elabore una grafica de puntos, con los datos de am- 
bos grupos en una misma grafica. 

b) Calcule la media, la mediana y la media recortada 
10% para ambos grupos. 

c) Explique por que la diferencia en la media sugiere una 
conclusion acerca del efecto del regimen, en tanto que 
la diferencia en las medianas o las medias recortadas 
sugiere una conclusion diferente. 

1.6 La resistencia a la tension del caucho de silicon se 
considera una fruition de la temperatura de vulcanizado. 


1.5 Medidas de variabilidad 

La variabilidad de una muestra juega un papel importante en el analisis de datos. La 
variabilidad de un proceso y un producto es un hecho real en los sistemas cientfficos 
y de ingenierfa: el control o la reduction de la variabilidad de un proceso a menudo es 
una fuente de mayores dificultades. Cada vez con mayor frecuencia, los ingenieros y 
administradores de procesos aprenden que la calidad del producto, y como resultado, 
las ganancias que se clerivan de productos manufacturados son, con mucho, una fun- 
cion de la variabilidad del proceso. De esta manera, gran parte de los capftulos 
9 a 15 tiene que ver con el analisis de datos y con los procedimientos de modelado, 
en los cuales la variabilidad de la muestra juega un papel significativo. Incluso en 
problemas de analisis de datos pequenos, el exito de un metodo estadfstico especffi- 
co podrfa depender de la magnitud de la variabilidad entre las observaciones en la 
muestra. Las medidas de position en una muestra no brindan un resumen adecuado 
de la naturaleza de un conjunto de datos. Es clecir, en el ejemplo 1.2 no podemos 
concluir que el uso del nitrogeno realza el crecimiento sin tomar en cuenta la varia- 
bilidad de la muestra. 

Mientras que los detalles del analisis de este tipo de conjuntos de datos se deja 
para estudiar en el capitulo 9, a partir de la figura 1.1 deberfa quedar claro que 
la variabilidad entre las observaciones “sin nitrogeno” y la variabilidad entre las 
observaciones “con nitrogeno”, desde luego, tienen alguna consecuencia. De hecho, 
parece que la variabilidad dentro de la muestra con nitrogeno es mayor que la de la 
muestra sin nitrogeno. Quizas hay a algo acerca de la inclusion del nitrogeno que no 
tan solo incrementa el peso de los tallos (x de 0.565 gramos en comparacion con una 
x de 0.399 gramos para la muestra sin nitrogeno), aunque tambien incrementa la 
variabilidad en el peso de los tallos (es decir, hace que el peso de los tallos sea mas 
inconsistente) . 

Por ejemplo, compare los dos conjuntos de datos de abajo. Cada uno contiene 
dos muestras y la diferencia en las medias es aproximadamente la misma para las dos 
muestras: el conjunto de datos B parece proporcionar un contraste mucho mas claro 
entre las dos poblaciones de las que se tomaron las muestras. Si el proposito de tal 
experimento es detectar la diferencia entre las dos poblaciones, la tarea se lleva a 
cabo en el caso del conjunto de datos B. Sin embargo, en el conjunto de datos A la 


Se llevo a cabo un estudio donde muestras de 12 especf- 
menes del caucho se prepararon utilizando temperaturas 
de vulcanizado de 20 °C y 40 °C. Los siguientes datos 
presentan los valores de resistencia a la tension en nie- 
gapascales. 


20 °C: 

2.07 

2.14 

2.22 

2.03 

2.21 

2.03 


2.05 

2.18 

2.09 

2.14 

2.11 

2.02 

45 °C: 

2.52 

2.15 

2.49 

2.03 

2.37 

2.05 


1.99 

2.42 

2.08 

2.42 

2.29 

2.01 


a) Elabore una grafica de puntos con los datos tanto de 
los valores de resistencia a la tension a temperatura 
alto como los de a temperatura baja. 

b ) Calcule la resistencia a la tension de la media de la 
muestra para ambas muestras. 

c) ^.Parece que la temperatura de vulcanizado tiene in- 
fluencia en la resistencia a la tension segun la grafica? 
Argumente. 

d) ^Que parece estar influido por un incremento en la 
temperatura de vulcanizado? 
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Conjunto de datos A: 


Conjunto de datos B: 


XXXXXX 0XX00XXX0 0000000 

1 1 

XXXXXXXXXXX 00000000000 

i 1 

** *0 


amplia variabilidad dentro de las dos muestras ocasiona dificultad. De hecho, no es 
claro que haya una diferencia entre las dos poblaciones. 


Rango y desviacion estandar de la muestra 

Asi como hay muchas medidas de tendencia central o de position, hay muchas me- 
didas de dispersion o variabilidad. Quiza la mas simple sea el rango de la muestra 
X m ax — Al m m- El rango puede ser muy util y se discute con amplitud en el capl- 
tulo 17 sobre control estadistico de calidad. La medida muestral de dispersion que 
se utiliza mas a menudo es la desviacion estandar de la muestra. Nuevamente 
denotemos con xi, x n los valores de la muestra; 


Definition 1.2: 


La varianza de la muestra, denotada con s 2 , esta dada por 

n / _\ o 

2 _ ^ ( 0Cj - X) Z 

n — 1 

1=1 

La desviacion estandar de la muestra, denotada con s, es la raiz cuadrada 
positiva de s 2 , es decir, 

s = %/sA 


Para el lector cleberia quedar claro que la desviacion estandar de la muestra es, 
de hecho, una medida de variabilidad. Una variabilidad grande en un conjunto de 
datos produce valores relativamente grandes de ( x — x) 2 y por ello una varianza de la 
muestra grande. La cantidad n-la menudo se denomina grados de libertad aso- 
ciados con la varianza estimada. En este ejemplo simple, los grados de libertad 
represent an el numero de piezas de information independientes disponibles para 
calcular la variabilidad. Por ejemplo, suponga que deseamos calcular la varianza de 
la muestra y la desviacion estandar del conjunto de datos (5, 17, 6, 4). El promedio 
de la muestra es x = 8. El calculo de la varianza implica: 

(5 - 8) 2 + (17 - 8) 2 + (6 - 8) 2 + (4 - 8) 2 = (-3) 2 + 9 2 + (-2) 2 + (-4) 2 . 

n 

Las cantidades dentro de los parentesis suman cero. En general, ( x i ~ *) = 0 

i= 1 

(vease el ejercicio 1.16 de la pagina 28). Entonces, el calculo de la varianza de una 
muestra no implica n desviaciones cuadradas independientes de la media x. 
De hecho, como el ultimo valor de x — x esta determinado por los primeros n — 1 
valores, decimos que estas son n — 1 “piezas de information” que producen s' 2 . Por 
ello hay n — 1 grados de libertad, en vez de n grados de libertad para calcular la 
varianza de una muestra. 
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Ejemplo 1.4:1 En un caso que se estudia ampliamente en el capitulo 10, un ingeniero se interesa 
en probar el “sesgo” en un medidor de pH. Se recaban los datos utilizandolo para 
medir el pH de una sustancia neutral (pH = 7.0). Se toma una muestra de tamano 
10 y se obtienen los siguientes resultados: 

7.07 7.00 7.10 6.97 7.00 7.03 7.01 7.01 6.98 7.08. 


La media de la muestra x esta dada por 

7.07 + 7.00 + 7.10+ •■■ + 7.08 


x = 


10 


= 7.0250. 


La varianza de la muestra s 2 esta dada por 

s 2 = i [( 7.07 - 7 . 025) 2 + ( 7.00 - 7 . 025) 2 + ( 7.10 - 7 . 025) 2 
+ • ■ • + ( 7.08 - 7 . 025 ) 2 ] = 0 001939 . 

Como resultado, la desviacion estandar de la muestra esta dada por 


s = a / 0. 00193 = 0 . 044 . 


De manera que la desviacion estandar de la muestra es 0.0440 con n — 1=9 
grados de libertad. 


Unidades para la desviacion estandar y la varianza 

A partir de la definition 1.2 deberia ser evidente que la varianza es una medida de 
la desviacion cuadratica promedio a partir de la media x. Empleamos el termino 
desviacion cuadratica promedio aun cuando la definition utilice una division entre 
n — 1 grados de libertad, en vez de n. Desde luego, si n es grande la diferencia en el de- 
nominador es inconsecuente. Por lo tanto, la varianza de la muestra tiene unidades que 
son el cuadrado de las unidades en los datos observados; mientras que la desviacion 
estandar de la muestra se encuentra en unidades lineales. Considere los datos del 
ejemplo 1.2. Los pesos del tallo se miden en gramos. Como resultado, las desviacio- 
nes estandar de la muestra estan en gramos y las varianzas se miden en gramos 2 . 
De hecho, las desviaciones estandar individuales son 0.0728 gramos para el caso sin 
nitrogeno y 0.1867 gramos para el grupo con nitrogeno. Observe que la variabilidad 
caracterizada por la desviacion estandar en verdad indica una variabilidad significa- 
tivamente mas grande en la muestra con nitrogeno. Esta condition se destaca en la 
figura 1.1. 


^Cual es la medida de variabilidad mas importante? 

Como indicamos antes, el rango de la muestra tiene aplicaciones en el area del con- 
trol estadistico de la calidad. Quizas el lector considere que es redundante el uso tan- 
to de la varianza de la muestra como de la desviacion estandar de la muestra. Ambas 
medidas reflejan el mismo concepto en la variabilidad de la medicion; pero la des- 
viacion estandar de la muestra mide la variabilidad en unidades lineales; en tanto 
que la varianza de la muestra se mide en unidades cuadradas. Ambas juegan papeles 
importantes en el uso de los metodos estadisticos. Mucho de lo que se logra en el 
contexto de la inferencia estadistica implica la obtencion de conclusiones acerca de 


1.6 Datos discretos y continuos 
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las caracteri'sticas de poblaciones. Entre tales caracteristicas son constantes los de- 
nominados parametros de la poblacion. Dos parametros importantes son la me- 
dia de la poblacion y la varianza de la poblacion. La varianza de la muestra 
juega un papel explicito en los metodos estadisticos que se utilizan para obtener 
inferencias sobre la varianza de la poblacion. La desviacion estandar de la muestra 
tiene un papel importante, junto con la media de la muestra, en las inferencias que 
se realizan acerca de la media de la poblacion. En general, la varianza se considera 
mas en la teoria inferential; mientras que la desviacion estandar se utiliza mas en 
aplicaciones. 


Ej ercicios 

1.7 Considere los datos del tiempo de secado del ejerci- 
cio 1.1 de la pagina 13. Calcule la varianza de la muestra 
y la desviacion estandar de la muestra. 

1.8 Calcule la varianza de la muestra y la desviacion 
estandar para los datos de absorcion del agua del ejerci- 
cio 1.2 de la pagina 13. 

1.9 El ejercicio 1.3 de la pagina 13 presento muestras 
de datos de resistencia a la tension, unos para especfme- 
nes que se expusieron a un proceso de envejecimiento, y 
otros donde no hubo tal proceso en los especfmenes. 
Calcule la varianza de la muestra y su desviacion es- 
tandar en cuanto a la resistencia a la tension en ambas 
muestras. 


1.10 Para los datos del ejercicio 1.4 de la pagina 13, 
calcule tanto la media como la varianza de la “flexibili- 
dad” para las companfas A y B. 

1.11 Considere los datos del ejercicio 1.5 de la pagina 
13. Calcule la varianza de la muestra y la desviacion 
estandar de la muestra para ambos grupos: el de trata- 
miento y el de control. 

1.12 Para el ejercicio 1.6 de la pagina 14, calcule la 
desviacion estandar de la muestra en la resistencia a 
la tension para las muestras, separadamente para ambas 
temperaturas. ^Parece que un incremento en la tempe- 
ratura influye en la variabilidad de la resistencia a la 
tension? Explique. 


1.6 Datos discretos y continuos 

La inferencia estadfstica a traves del analisis de estudios observacionales o de expe- 
rimentos disenados se utiliza en muchas areas cientfficas. Los datos reunidos pueden 
ser discretos o continuos, segun el area de aplicacion. Por ejemplo, un ingeniero 
quimico podria interesarse en un experimento que lo lleve a condiciones en que se 
maximice la production. Aqui, por supuesto, la production estaria en porcentaje, o 
gramos/libra, medida en un continuo. Por otro lado, un toxicologo que realice un 
experimento de combination de farmacos quizas encuentre datos que son binarios 
por naturaleza (es clecir, el paciente responde o no). 

Distinciones importantes se realizan entre datos discretos y continuos en la teo- 
ria de la probabilidad que nos permiten obtener inferencias estadisticas. Con fre- 
cuencia las aplicaciones de la inferencia estadfstica se encuentran cuando se trata 
de datos por conteo. Por ejemplo, un ingeniero que se interese en estudiar el numero de 
particulas radiactivas que pasan a traves de un contador en, digamos, 1 milisegun- 
do. El personal responsable por la eficiencia de una instalacion portuaria quiza se 
interese en las caracteristicas del numero de buques petroleros que llegan diaria- 
mente a cierta ciudad portuaria. En el capitulo 5, varios escenarios distintos, al mos- 
trar varias formas de manejar los datos, se examinan para situaciones de datos por 
conteo. 

Incluso en esta fase inicial del texto, deberia ponerse especial atencion a algunos 
detalles que se asocian con datos binarios. Son muchas las aplicaciones que requieren 
el analisis estadistico de datos binarios. Con frecuencia la medicion que se utiliza 
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en el analisis es la proportion muestral. En efecto, la situation binaria implica dos 
categorias. Si en los datos hay n unidades y x se define como el numero que cae en 
la categorfa 1, entonces n — x cae en la categorfa 2. Asf, x /n es la proportion muestral 
en la categorfa 1 y 1 — x/n es la proportion muestral en la categorfa 2. En la apli- 
cacion biomedica, por ejemplo, 50 pacientes represent arfan las unidades de la mues- 
tra y si, despues de que se les suministra el medicamento, 20 de 50 experimental! 
mejorfa en malestares estomacales (que son comunes en los 50), entonces = 0.4 
es la proportion muestral para la cual el medicamento tuvo exito, y 1 — 0.4 = 0.6 es 
la proportion muestral para la cual el farmaco no tuvo exito. En realidad la medicion 
numerica fundamental para datos binarios, por lo general, se denota con 0 o con 1. 
Por ejemplo, en nuestro ejemplo medico, un resultado exitoso se denota con un 1 y 
uno no exitoso con un 0. Entonces, realmente la proportion muestral es una media 
de la muestra de unos y ceros. Para la categorfa de exitos, 

xi + X'2 + • • ■ + £50 1 + 1 + 0 + -- - + 0 + 1 20 

50 " 50 “ 50 ~~ 


^Que clases de problemas se resuelven en situaciones con datos binarios? 

Los tipos de problemas que enfrentan cientfficos e ingenieros que tratan con datos 
binarios no son muy diffciles, a diferencia de aquellos clonde las mediciones conti- 
nuas son de interes. No obstante, se utilizan tecnicas diferentes, pues las propieda- 
des estadfsticas de las proporciones muestrales son bastante diferentes de las medias de 
la muestra que resultan de los promedios tornados a partir de poblaciones continuas. 
Considere los datos del ejemplo en el ejercicio 1.6 de la pagina 14. El problema 
estadfstico que subyace a este caso se enfoca en si una intervention, digamos un in- 
cremento en la temperatura de vulcanizado, alterara la resistencia a la tension de la 
media de la poblacion que se asocia con el proceso del caucho de silicon. Por otro lado, 
en el area del control de la calidad, suponga que el fabricante de neumaticos para 
automovil informa que en un embarque con 5000 neumaticos, seleccionados aleatoria- 
mente del proceso, hay 100 defectuosos. Aquf la proportion muestral es = 0.02. 
Luego de realizar un cambio en el proceso para reducir los neumaticos defectuosos, 
se toma una segunda muestra de 5000 y se encuentran 90 defectuosos. La proportion 
muestral se redujo a = 0.018. Entonces, surge una pregunta: “^La disminucion 
en la proporcion muestral de 0.02 a 0.018 es en verdad suficiente como para sugerir 
una mejorfa real en la proporcion de la poblacion?” En ambos casos se requiere el 
uso de las propiedades estadfsticas de los promedios de la muestra: en uno a partir 
de las muestras de poblaciones continuas, y en el otro a partir de las muestras de 
poblaciones discretas (binarias). Ademas, en ambos la media de la muestra es un 
estimado de un parametro de la poblacion: una media de la poblacion en el primer 
caso (la resistencia media a la tension), y una proporcion de la poblacion (la pro- 
porcion de neumaticos defectuosos en la poblacion) en el segundo caso. De manera 
que aquf tenemos estimados de la muestra que se utilizan para obtener conclusiones 
cientfficas respecto de los parametros de la poblacion. Como indicamos en la section 
1.4, se trata del tema general en muchos problemas practicos clonde se usa la infe- 
rencia estadfstica. 
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1.7 Modelado estadistico, inspeccion cientifica 
y diagnosticos graficos 

A menudo el resultado final de un analisis estadistico es la estimation cle los para- 
metros de un modelo postulado. Esto es por completo natural para los cientificos 
y los ingenieros, pues con frecuencia tratan con el modelado. Un modelo estadistico 
no es determinista sino, mas bien, debe implicar algunos aspectos probabilistas. Por 
lo general, una forma de modelo es la fundamentacion de las suposiciones que hace 
el analista. En nuestro ejemplo 1.2, quizas el cientifico desee extraer algun nivel de 
distincion entre las poblaciones “con nitrogeno” y “sin nitrogeno” a traves de infor- 
mation de la muestra. El analisis puede requerir cierto modelo para los clatos; por 
ejemplo, que las clos muestras provengan de distribuciones normales o gaussia- 
nas. Vease el capitulo 6 para el estudio de una distribution normal. 

A veces el modelo postulado adquiere una forma algo mas compleja. Por ejemplo, 
considere un fabricante de textiles que disena un experimento donde los especimenes 
de tela se producen de manera que contengan diferentes porcentajes de algodon. 
Considere los siguientes datos de la tabla 1.3. 


Tabla 1.3: Resistencia a la tension 


Porcentaje del algodon 

Resistencia a la tension 

15 

7,7,9,8,10 

20 

19,20,21,20,22 

25 

21,21,17,19,20 

30 

8,7,8,9,10 


Se fabrican cinco especimenes de tela para cada uno de los cuatro porcentajes de 
algodon. En este caso, tanto el modelo para el experimento como el tipo de analisis 
que se utiliza deberian tomar en cuenta el objetivo del experimento y los insumos 
importantes del cientifico textil. Algunas graficas sencillas aclararian la distincion 
entre las muestras. Vease la figura 1.5; las medias de las muestras y la variabilidad 
se describen bien en la grafica de los datos. Un posible objetivo de este experimento 
es simplemente la determination de cuales porcentajes de algodon son en realidad 
distintos de los otros. En otras palabras, como en el caso de los datos con nitrogeno/ 
sin nitrogeno, ^para cuales porcentajes de algodon hay distinciones tiaras entre las 
poblaciones o, de forma mas especifica, entre las medias de las poblaciones? En este 
caso, quizas un modelo razonable sea que cada muestra viene de una distribution 
normal. Aqui el objetivo es muy semejante al de los datos con nitrogeno/sin nitro- 
geno, excepto en que se incluyen mas muestras. El formalismo del analisis implica 
nociones de prueba de hipotesis que se examinan en el capitulo 10. A proposito, tal 
vez este formalismo no sea necesario a la luz de la grafica de diagnostico. Pero, ^des- 
cribe el objetivo real del experimento y por consiguiente el enfoque adecuado para 
el analisis de datos? Es probable que el cientifico anticipe la existencia de una resis- 
tencia a la tension maxima de la media de la poblacion, en el rango de concentration 
de algodon en el experimento. Aqui el analisis de los datos deberia girar alrededor de 
un tipo diferente de modelo, es decir, uno que postule un tipo de estructura que 
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relacione la resistencia a la tension de la media de la poblacion con la concentration 
de algodon. En otras palabras, un modelo se escribe como 

Pt,c = Po + Pi C + @2 C 2 , 

donde pt,c es la resistencia a la tension de la media de la poblacion, que varia con la 
cantidad de algodon en el producto C. La implication de este modelo es que para un 
nivel fijo de algodon, hay una poblacion de mediciones de resistencia a la tension y 
la media de la poblacion es im,c- Este tipo de modelo, que se denomina modelo de 
regresion, se estudia en los capftulos 11 y 12. La forma funcional la elige el cientf- 
fico. A veces el analisis de datos puede sugerir que se cambie el modelo. Entonces, 
el analista de datos “considera” un modelo que es posible alterar despues de que se 
haga algun analisis. El uso de un modelo empfrico se acompana por la teorfa de 
estimacion, donde Po, Pi y P 2 se estiman de los datos. Ademas, se utiliza la infe- 
rencia estadistica para determinar lo adecuado del modelo. 
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Figura 1.5: Grafica de resistencia a la tension y porcentajes de algodon. 


Aqui se hacen evidentes dos puntos de las dos ilustraciones de datos: 1. el tipo 
de modelo que se emplea para describir los datos a menudo depende del objeti- 
vo del experimento, y 2. la estructura del modelo deberia aprovecharse del insumo 
cientifico no estadistico. La selection de un modelo representa una suposicion fun- 
damental sobre la que se basa la inferencia estadistica resultante. Se hara evidente 
a lo largo del libro que tan importantes llegan a ser las graficas. A menudo, las gra- 
ficas ilustran information que permite que los resultados de la inferencia estadisti- 
ca formal se comuniquen mejor al cientifico o al ingeniero. A veces, las graficas o el 
analisis exploratorio de los datos pueden ensehar al analista algo que no se ob- 
tiene del analisis formal. Casi cualquier analisis formal requiere suposiciones que se 
desarrollan a partir del modelo de datos. Las graficas pueden resaltar bien la viola- 
cion de suposiciones que, de otra forma, no se notarian. A lo largo del libro, las 
graficas se utilizan de manera extensa para complementar el analisis formal de los da- 
tos. En las siguientes secciones se presentan algunas herramientas graficas utiles que 
sirven para el analisis exploratorio o descriptivo de los datos. 


1.8 Metodos graficos y descripcion de datos 

Evidentemente, el usuario de los metodos estadisticos no puede generar information 
o datos experimentales suficientes como para caracterizar totalmente a la poblacion. 
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Sin embargo, a menudo, se emplean conjuntos de datos para aprender acerca de 
ciertas propiedades de la poblacion. Los cientificos y los ingenieros estan acostum- 
brados a trabajar con conjuntos de datos. La importancia de caracterizar o resumir 
la naturaleza de agrupaciones de datos cleberia ser clara. Con frecuencia un resumen 
de un conjunto de datos que utilice graficas darta una vision sobre el sistema a partir 
del cual se tomaron los datos. 

En esta section se estudian con detalle el papel del muestreo y de la presentation 
de los datos para reafirmar la inferencia estadistica respecto de sistemas cientifi- 
cos. Examinaremos solo alguna visualization sencilla pero a menudo eficaz que com- 
plemente el analisis de las poblaciones estadisticas. Los datos estadisticos obtenidos 
de poblaciones grandes podrian ser muy utiles para estudiar el comportamiento de la 
distribucion, si se presentan junto con recursos tabulares y graficos conocidos co- 
mo diagramas de tallo y hojas. 

Para ejemplificar la elaboration de un diagrama de tallo y hojas, considere los 
datos de la tabla 1.4, que especifican la “vida” de 40 baterias para automovil si- 
milares, registradas al clecimo de ano mas cercano. Las baterias se garantizan por 
tres anos. Primero, divida cada observation en dos partes: una para el tallo y otra 
para las hojas, de manera que el tallo represente el digito entero que antecede al 
decimal, y la hoja corresponda a la parte decimal del numero. En otras palabras, 
para el numero 3.7 el digito 3 clesigna al tallo; y el 7, a la hoja. Para nuestros datos 
los cuatro tallos 1, 2, 3 y 4 se listan verticalmente del lado izquierdo de la tabla 1.5; 
en tanto que las hojas se registran en el lado derecho correspondiente del valor del 
tallo adecuado. Entonces, la hoja 6 del numero 1.6 se registra enfrente del tallo 1; 
la hoja 5 del numero 2.5 enfrente del tallo 2; y asi sucesivamente. El numero de 
hojas registrado junto a cada uno de los tallos se anota debajo de la columna 
de frecuencia. 


Tabla 1.4: Vida de las baterias para automovil 


2.2 

4.1 

3.5 

4.5 

3.2 

3.7 

3.0 

2.6 

3.4 

1.6 

3.1 

3.3 

3.8 

3.1 

4.7 

3.7 

2.5 

4.3 

3.4 

3.6 

2.9 

3.3 

3.9 

3.1 

3.3 

3.1 

3.7 

4.4 

3.2 

4.1 

1.9 

3.4 

4.7 

3.8 

3.2 

2.6 

3.9 

3.0 

4.2 

3.5 


Tabla 1.5: Diagrama de tallo y hojas de la vida de las baterias 


Tallo 

Hoja 

Frecuencia 

1 

69 

2 

2 

25669 

5 

3 

0011 112223334445567778899 

25 

4 

11234577 

8 


El diagrama de tallo y hojas de la tabla 1.5 contiene tan solo cuatro tallos y, por 
lo tanto, no ofrece una representation adecuada de la distribucion. Para solucionar 
ese inconveniente, es necesario aumentar el numero de tallos en nuestro diagrama. 
Una manera sencilla de hacerlo consiste en escribir dos veces cada valor del tallo y 
despues registrar las hojas 0, 1, 2, 3 y 4 enfrente del valor del tallo adecuado, donde 
aparezca por primera vez; y las hojas 5, 6, 7, 8 y 9 enfrente de este mismo valor del 
tallo, donde aparece la segunda vez. El diagrama doble de tallo y hojas modificado 
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se ilustra en la tabla 1.6, donde a los t alios que corresponden a las hojas 0 a 4 se les 
anoto un smibolo 7k-, y al tallo correspondiente a las hojas 5 a 9, el smibolo •. 

En cualquier problema especffico, debemos decidir cuales son los valores del tallo 
adecuados. Se trata de una decision que se toma algo arbitrariamente, aunque nos 
guiamos por el tamano de nuestra muestra. Por lo general, elegimos entre 5 y 20 ta- 
llos. Cuanto menor sea el numero de datos disponibles, menor sera nuestra election 
respecto del numero de tallos. Por ejemplo, si los datos consisten en numeros del 1 al 
21, los cuales representan el numero de personas en la fila de una cafeteria en 40 clias 
laborables elegidos aleatoriamente y elegimos un diagrama doble de tallo y hojas, 
los tallos serian 0*, 0-, 1*, 1- y 2*, de manera que la observation de 1 mas pequena 
tiene tallo Ot^ y hoja 1, el numero 18 tiene tallo 1- y hoja 8, y la observation de 21 
mas grande tiene tallo 2-k y hoja 1. Por otro lado, si los datos consisten en numeros 
de $18,800 a $19,600 que representan las mejores ventas posibles de 100 automovi- 
les nuevos, obtenidos de cierto concesionario, y elegimos un diagrama sencillo de 
tallo y hojas, los tallos serian 188, 189, 190, . . . , y 196, y las hojas contendrian 
ahora dos cligitos cada una. Un automovil que se vende en $19,385 tendria un valor 
de tallo de 193 y 85 en los dos cligitos de la hoja. En el diagrama de tallo y hojas 
las hojas de cligitos multiples que pertenecen al mismo tallo, por lo general, estan 
separadas por comas. En los datos generalmente se ignoran los puntos decimales 
cuando todos los numeros a la derecha del punto decimal representan hojas, como 
en el caso de las tablas 1.5 y 1.6. Sin embargo, si los datos consisten en numeros que 
van de 21.8 a 74.9, podriamos elegir los digitos 2, 3, 4, 5, 6 y 7 como nuestros tallos, 
de manera que un numero como, por ejemplo, 48.3 tendria un valor de tallo de 4, y 
un valor cle hoja de 8.3. 

Tabla 1.6: Diagrama doble cle tallo y hojas para la vida de las baterias 


Tallo 

Hoja 

Frecuencia 

1- 

69 

2 

2-k 

2 

1 

2 ■ 

5669 

4 

3 * 

001111222333444 

15 

3- 

5567778899 

10 

4* 

11234 

5 

4- 

577 

3 


El diagrama de tallo y hojas representa una manera eficaz de resumir los datos. 
Otra forma consiste en usar la distribution de frecuencias, donde los datos, agru- 
pados en diferentes clases o intervalos, se pueden construir contando las hojas que 
pertenecen a cada tallo y considerando que cada tallo define un intervalo de clase. 
En la tabla 1.5 el tallo 1 con 2 hojas define el intervalo 1.0-1. 9 que contiene 2 obser- 
vaciones; el tallo 2 con 5 hojas define el intervalo 2. 0-2. 9 que contiene 5 observacio- 
nes; el tallo 3 con 25 hojas define el intervalo 3. 0-3. 9 con 25 observaciones; y el tallo 
4 con 8 hojas define el intervalo 4. 0-4. 9 que contiene 8 observaciones. Para el dia- 
grama doble de tallo y hojas de la tabla 1.6 los tallos definen los siete intervalos de 
clase 1. 5-1.9, 2.0-2.4, 2.5-2.9, 3.0-3.4, 3.5-3.9, 4.0-4.4 y 4.5-4.9 con frecuencias 2, 1, 
4, 15, 10, 5 y 3, respectivamente. Al dividir cada frecuencia de clase entre el numero 
total de observaciones, obtenemos la proportion del conjunto de observaciones en 
cada una de las clases. Una tabla que lista las frecuencias relativas se denomina 
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distribution de frecuencias relativas. La distribution de frecuencias relativas para 
los datos de la tabla 1.4, que muestra los puntos medios de cada intervalo de clase, 
se presenta en la tabla 1.7. 


Tabla 1.7: Distribucion de frecuencias relativas de la vida de las baterias 


Intervalo 
de clase 

Punto medio 
de la clase 

Frecuencia, 

/ 

Frecuencia 

relativa 

1.5-1. 9 

1.7 

2 

0.050 

2. 0-2. 4 

2.2 

1 

0.025 

2. 5-2.9 

2.7 

4 

0.100 

3. 0-3. 4 

3.2 

15 

0.375 

3. 5-3.9 

3.7 

10 

0.250 

4. 0-4. 4 

4.2 

5 

0.125 

4. 5-4. 9 

4.7 

3 

0.075 
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Figura 1.6: Histograma de frecuencias relativas. 


La information que brinda una distribucion de frecuencias relativas en forma ta- 
bular es mas facil de entender si se presenta en forma grafica. Utilizando los puntos 
medios de cada intervalo y las frecuencias relativas correspondientes, construimos un 
histograma de frecuencias relativas (figura 1.6). 

Muchas distribuciones de frecuencias continuas se representan graficamente me- 
diante la curva en forma de campana caracterfstica de la figura 1.7. Herramientas 
graficas como las de las figuras 1.6 y 1.7 ayudan a comprender la naturaleza de la 
poblacion. En los capftulos 5 y 6 examinaremos una propiedad de la poblacion que 
se conoce como su distribucion. Mientras que una definition mas precisa de una 
distribucion o de distribucion de probabilidad se examinara mas adelante en este 
texto, ahora podemos visualizarla como lo que habrfa sido el lfmite de la figura 1.7, 
conforme el tamaho de la muestra se vuelve mas grande. 

Se dice que una distribucion en simetrica si se puede doblar a lo largo de un 
eje vertical, de manera que ambos lados coincidan. Una distribucion que carece de 
simetrfa respecto de un eje vertical es asimetrica o sesgada. Entonces, la distri- 
bucion que se ilustra en la figura 1.8a esta sesgada porque tiene una cola derecha 
larga y una cola izquierda mucho mas corta. En la figura 1.8b observamos que la 
distribucion es simetrica; mientras que en la figura 1.8c esta sesgada a la izquierda. 
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Figura 1.7: Estimation de la distribution de frecuencias. 




a) b) c) 

Figura 1.8: Asimetria de los datos. 


A1 girar un diagrama de tallo y hojas en direction contraria a la de las manecillas 
del reloj en un angulo de 90°, vemos que las columnas de hojas que resultan forman 
una imagen parecida a un histograma. Por lo tanto, si al observar los datos nuestro 
objetivo principal es determinar la forma general de la distribution, rara vez sera 
necesario construir un histograma de frecuencias relativas. Se utilizan otros tipos 
diferentes de recursos y herramientas graficas, los cuales se estudiaran en el capitulo 8, 
cuando presentemos detalles teoricos adicionales. 

Otras caracteristicas distintivas de una muestra 

Hay caracteristicas de la distribution o de la muestra a parte de las medidas del 
centro de ubicacion y variabilidad que van mas alia al clefinir su naturaleza. Por 
ejemplo, en tanto que la mediana divide los datos (o su distribution) en dos partes, 
existen otras medidas que dividen partes o piezas de la distribution que podrian 
resultar muy utiles. Una separation en cuatro partes se hace en cuartiles, clonde el 
tercer cuartil separa el cuarto superior del resto de los datos, el segundo cuartil es la 
mediana y el primer cuartil separa el cuartil inferior del resto de los datos. Incluso 
la distribution puede dividirse mas detalladamente calculando los percentiles de la 
distribution. Tales cantidades dan al analista una notion de las denominadas colas 
de la distribution (es decir, los valores que son relativamente extremos, ya sean 
pequehos o grandes). Por ejemplo, el 95°. percentil separa el 5% superior del 95% 
inferior. Definiciones similares prevalecen para los extremos en el lado inferior o 
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cola inferior de la distribucion. El ler percentil separa el 1% inferior del resto de la 
distribucion. El concepto de percentiles tendra un papel significativo en buena parte 
de lo que estudiaremos en los siguientes capi'tulos. 


1.9 Tipos generales de estudios estadisticos: Diserio 

experimental, estudio observacional y estudio retrospectivo 

En las siguientes secciones destacaremos la notion de muestreo de una poblacion 
y el uso de los metodos estadisticos para aprender o quiza para reafirmar la informa- 
tion relevante acerca de una poblacion. La information que se busca y que se obtie- 
ne mediante el uso de tales metodos estadisticos a menudo llega a influir en la toma 
de decisiones, asf como en la resolution de problemas en diversas areas importantes de 
ingenierfa y cienti'ficas. Como ilustracion, el ejemplo 1.3 describe un experimento sen- 
cillo, en el cual los resultados brindan ayuda para determinar los tipos de condiciones 
bajo las cuales se recomienda utilizar una aleacion de aluminio especffica, para pre- 
venir la vulnerabilidad riesgosa ante la corrosion. Los resultados serfan utiles no solo 
para quienes fabrican la aleacion, sino tambien para los clientes que consideren ad- 
quirirla. Este caso, y muchos otros que se incluyen en los capi'tulos 13 a 15, resaltan 
el concepto de condiciones experimentales disenadas o controladas (combinaciones 
de condiciones de recubrimiento y humedad) , que son de interes para aprender sobre 
algunas caracteri'sticas o mediciones (nivel de corrosion) que surgen de tales condi- 
ciones. En el estudio de la corrosion se emplean metodos estadisticos que utilizan 
tanto medidas de tendencia central como de variabilidad. Como usted vera mas 
adelante en este texto, tales metodos con frecuencia nos gui'an hacia un modelo 
estadfstico como el que se examino en la section 1.7. En este caso, el modelo puede 
usarse para estimar (o predecir) las medidas de la corrosion como una funcion de la 
humedad y el tipo de recubrimiento utilizado. De nuevo, para desarrollar este tipo 
de modelos su vuelve muy util emplear la estadfstica descriptiva que destaca las 
medidas de tendencia central y de variabilidad. 

La information que se ofrece en el ejemplo 1.3 ilustra significativamente los tipos 
de preguntas de ingenierfa que se plantean y se responden usando los metodos esta- 
dfsticos que son utiles para el diseho experimental y que se presentan en este texto. 
Tales preguntas son las siguientes: 

i. ^Cual es la naturaleza de la influencia de la humedad relativa sobre la corrosion 
de la aleacion de aluminio dentro del rango de humedad relativa en este expe- 
rimento? 

ii. ^E1 recubrimiento qufmico contra la corrosion reduce los niveles de corrosion y 
el efecto puede cuantificarse de alguna manera? 

iii. f,Hay interaccion entre el tipo de recubrimiento y la humedad relativa que 
influya en la corrosion de la aleacion? Si es asf, ^cual serfa su interpretation? 


^Que es interaccion? 

La importancia de las preguntas i. y ii. deberfa ser clara para el lector, en la medida 
en que tienen que ver con aspectos importantes tanto para los productores como 
para los usuarios de la aleacion. [Y que sucede con la pregunta iii.? El concepto de 
interaccion se estudiara con detalle en los capi'tulos 14 y 15. Considere la grafica 
de la figura 1.3. Se trata de un caso de detection de la interaccion entre dos facto- 
res en un diseho experimental simple. Note que las lfneas que conectan las medias 
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de la muestra no son paralelas. El paralelismo habria indicado que el efecto (visto 
como un resultado de la pendiente de las h'neas) de la humedad relativa de la hu- 
medad relativa es el mismo, es decir, un efecto negativo, tanto para una condition 
sin recubrimiento como para otra con recubrimiento quimico contra la corrosion. 
Recuerde que la pendiente “negativa” implica que la corrosion se vuelve mas signifi- 
cativa conforme se incrementa la humedad. La ausencia de paralelismo implica una 
interaction entre el tipo de recubrimiento y la humedad relativa. A diferencia de la 
pendiente mas pronunciada para la condition sin recubrimiento, la linea casi “hori- 
zontal” para el recubrimiento contra la corrosion sugiere que no solo el recubrimiento 
quimico contra la corrosion es benefico ( note el desplazamiento entre las lineas), 
sino que la presencia del recubrimiento ilustra el efecto de la humedad despreciable. 
Claramente, todas estas cuestiones son muy importantes para el efecto de los dos 
factores individuales y para la interpretation de la interaction, si esta presente. 

Los modelos estadfsticos son bastante utiles para responder preguntas como 
las numeradas i, ii y iii anteriormente, donde los datos se obtienen de un diseno 
experimental. Sin embargo, uno no siempre cuenta con el tiempo o los recursos que 
permiten el uso de un diseno experimental. Por ejemplo, hay muchos casos en que las 
condiciones de interes para el cientifico o el ingeniero simplemente no pueden im- 
plementarse debido a la imposibilidad de controlar los factores importantes. En el 
ejemplo 1.3 la humedad relativa y el tipo de recubrimiento (o la ausencia de este) 
son bastante faciles de controlar. Desde luego, se trata del rasgo distintivo de un dise- 
no experimental. En muchos campos, los factores que deben estudiarse no pueden 
ser controlados por cualesquiera diversas razones. Un control riguroso como el del 
ejemplo 1.3 permite al analista tener la confianza de que las diferencias encontradas 
(como en los niveles de corrosion) se deben a los factores que se controlan. Consi- 
dere el ejercicio 1.6 de la pagina 14 como otro ejemplo. En este caso suponga que se 
elige 24 especi'menes de caucho de silicon y 12 se asignan a cada uno de los niveles 
de temperatura de vulcanizado. Las temperaturas se controlan cuidadosamente, de 
manera que se trata de un ejemplo de diseno experimental con solo factor, que es 
la temperatura de vulcanizado. Se supondria que las diferencias encontradas en la 
resistencia a la tension de la media son atribuibles a las diferentes temperaturas de 
vulcanizado. 


^Que sucede si no se controlan los factores? 

Suponga que los factores no se controlan y que no hay asignacion aleatoria a los 
tratamientos especificos para las unidades experiment ales, y que se busca deducir 
information a partir de un conjunto de datos. Como ejemplo considere el estudio 
realizado donde el interes se centra en la relation entre los niveles de colesterol 
sanguineo y la cantidad de sodio medida en la sangre. Durante cierto periodo se 
monitored a un grupo de individuos, asf como su colesterol sangumeo y su sodio. 
En efecto, es posible obtener alguna information util de tal conjunto de datos. No 
obstante, deberia quedar claro que aquf ciertamente no hay control estricto de los 
niveles de sodio. De manera ideal, los sujetos deberian dividirse aleatoriamente en 
dos grupos, donde uno fuera el asignado a un “nivel alto” especifico de sodio en la 
sangre, y el otro a un “nivel bajo” especifico de sodio en la sangre. En efecto, esto 
no es posible. Evidentemente los cambios en los niveles de colesterol se deben a cam- 
bios en uno o diversos factores que no se controlaron. Este tipo de estudio, sin con- 
trol de factores, se denomina estudio observacional (o por observation), el cual 
la mayoria de las veces implica una situation en que los sujetos se observan a traves 
del tiempo. 


1.9 Tipos generales de estudios estadisticos 
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Los estudios biologicos y biomedicos a menudo son necesariamente de este tipo. 
Sin embargo, los estudios observacionales no se restringen a dichas areas. Por ejem- 
plo, considere un estudio disenado para determinar la influencia de la temperatura 
ambiental sobre la energfa electrica que consumen las instalaciones de una planta 
qufmica. Indudablemente los niveles de la temperatura ambiental no pueden contro- 
larse y, por lo tanto, la estructura de los datos tan solo se monitorea a partir de los 
datos de la planta a traves del tiempo. 

Deberia notarse que una diferencia basica entre un experimento bien disenado 
y un estudio observational es la dificultad para determinar los verdaderos causa y 
efecto en este ultimo. Asimismo, las diferencias encontradas en la reaction funda- 
mental (por ejemplo, niveles de corrosion, colesterol sanguineo, consumo de energfa 
electrica en una planta) podri'a deberse a otros factores subyacentes que no se con- 
trolaron. De manera ideal, en un diseno experimental, los factores perturbadores 
estari'an compensados gracias al proceso de aleatoriedad. De hecho, los cambios 
en los niveles de colesterol sanguineo podri'an deberse a la ingestion de grasa, a la 
realization de actividad ffsica, etcetera. El consumo de energfa electrica podrfa estar 
afectado por la cantidad de bienes producidos o incluso por la calidad de estos. 

En los estudios observacionales otra desventaja que a menudo se ignora cuando se 
comparan con los experimentos cuidadosamente disenados es que, a diferencia de estos, 
los primeros estan a merced de circunstancias naturales, ambientales u otras no con- 
troladas que influyen en los niveles de los factores de interes. Por ejemplo, en el estudio 
biomedico respecto de la influencia de los niveles de sodio en la sangre sobre el coles- 
terol sanguineo, es posible que, de hecho, haya una influencia significativa, pero que el 
conjunto de datos especffico que se usa no implique una variation observada suficiente 
en los niveles de sodio a causa de la naturaleza del sujeto elegido. Evidentemente, en 
un diseno experimental, el analista elige y controla los niveles de los factores. 

Un tercer tipo de estudio estadfstico que podrfa ser muy util, pero que tiene 
notables desventajas cuando se le compara con un experimento bien disenado, es un 
estudio retrospectivo. Esta clase de estudio emplea estrictamente datos histo- 
ricos, que se obtienen durante un periodo especffico. Una ventaja evidente con los 
datos retrospectivos es que practicamente no hay costo por recabar los datos. Sin 
embargo, como podrfa esperarse, tambien tiene desventajas claras: 

i. A menudo es cuestionable la validez y la confiabilidad de los datos historicos. 

ii. Si el tiempo es un aspecto relevante en la estructura de los datos podrfa haber 
datos faltantes. 

iii. Existirfan errores en la recopilacion de los datos que no se conocen. 

iv. De nuevo, como en el caso de los datos observacionales, no hay control en los 
niveles de las variables que se miden (es decir, en los factores que se estudian). 
De hecho, las variaciones que se encuentran en los datos historicos a menudo 
no son significativas para estudios actuales. 

Estudios que no determinan relaciones entre variables 

En la section 1.7 se le dio cierto enfasis al modelado de las relaciones entre variables. 
Presentamos la notion de analisis de regresion, el cual se estudia en los capftulos 11 y 
12, y se considera una forma del analisis de datos para los disenos experimentales que 
se examinaran en los capftulos 14 y 15. En la section 1.7, un modelo que relaciona la 
resistencia a la tension de la media de la poblacion (la tela) con los porcentajes de al- 
godon, se utilizo para ilustrar los 20 especfmenes que representaban las unidades ex- 
perimentales. En este caso, los datos provienen de un diseno experimental simple, en 
el que los porcentajes de algodon individuales fueron seleccionados por cientfficos. 
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Con frecuencia tanto los datos observacionales como los retrospectivos se uti- 
lizan con la finalidad de observar relaciones entre variables a traves de procedi- 
mientos de construccion que se estudian en los capi'tulos 11 y 12. Mientras que, de 
hecho, las ventajas de los disenos experimentales se aplican cuando la finalidad 
es la construccion del modelo estadfstico, hay muchas areas en que no es posible 
disenar experimentos, de manera que habra que utilizar los datos historicos u obser- 
vacionales. Aquf nos referimos al conjunto de datos historicos que se incluye en el 
ejercicio 12.9 de la pagina 454. El objetivo es construir un modelo que resulte en 
una ecuacion o relation que vincule el consumo mensual de energfa electrica con la 
temperatura ambiental promedio X\, el numero de clfas en el mes X 2 , la pureza pro- 
medio del producto X 3 y las toneladas de bienes producidos 24 . Se trata de los datos 
historicos del ano anterior. 


Ej ercicios 


1.13 Un fabricante de componentes electronicos se in- 
teresa en determinar el tiempo de vida de cierto tipo de 
bateri'a. La que sigue es una muestra, en horas de vida: 

123, 116, 122, 110, 175, 126, 125, 111, 118, 117. 

a ) Encuentre la media y la mediana de la muestra. 

b) iQue caracterfstica en este conjunto de datos es la 
responsable de la diferencia sustancial entre ambas? 

1.14 Un fabricante de neumaticos quiere determinar 
el diametro interior de un neumatico de cierto grado de 
calidad. Idealmente el diametro seri'a de 570 mm. Los 
datos son los siguientes: 

572, 572, 573, 568, 569, 575, 565, 570. 

a) Encuentre la media y la mediana de la muestra. 

b) Encuentre la varianza, la desviacion estandar y el 
rango de la muestra. 

c) Usando los estadfsticos calculados en los incisos a) y 
b) /.que comentarfa acerca de la calidad de los neu- 
maticos? 

1.15 Cinco lanzamientos independientes de una mo- 
neda tienen como resultado cinco caras. Resulta que si 
la moneda es legal, la probabilidad de este resultado es 
( 1 / 2) 5 = 0.03125. /.Produce esto evidencia solida de que 
la moneda no sea legal? Comente y utilice el concepto de 
valor-Pque se discutio en la section 1 . 2 . 

n 

1.16 Muestre que las n piezas de information en ]U 

i= 1 

{x\ — X2) 2 no son independientes; es decir, muestre que 

n 

^2(xi-x) = 0 . 
i= 1 

1.17 Se realiza un estudio acerca de los efectos del ta- 
baquismo sobre los patrones de sueno. La medicion que 
se observa es el tiempo, en minutos, que toma quedar 
dormido. Se obtienen estos datos: 


Fumadores: 

69.3 

56.0 

22.1 

47.6 


53.2 

48.1 

52.7 

34.4 


60.2 

43.8 

23.2 

13.8 

No fumadores: 

28.6 

25.1 

26.4 

34.9 


29.8 

28.4 

38.5 

30.2 


30.6 

31.8 

41.6 

21.1 


36.0 

37.9 

13.9 


Encuentre la media de la muestra para 

cada grupo. 


b) Encuentre la desviacion estandar de la muestra para 
cada grupo. 

c) Usando una grafica de puntos grafique los conjuntos 
de datos A y B en la misma linea. 

d) Comente que clase de impacto parece tener el hecho 
de fumar sobre el tiempo que se requiere para quedar- 
se dormido. 

1.18 Las siguientes puntuaciones representan la cali- 
ficacion en el examen final para un curso de estadlstica 
elemental: 


23 

60 

79 

32 

57 

74 

52 

70 

82 

36 

80 

77 

81 

95 

41 

65 

92 

85 

55 

76 

52 

10 

64 

75 

78 

25 

80 

98 

81 

67 

41 

71 

83 

54 

64 

72 

88 

62 

74 

43 

60 

78 

89 

76 

84 

48 

84 

90 

15 

79 

34 

67 

17 

82 

69 

74 

63 

80 

85 

61 





a) Elabore un diagrama de tallo y hojas para las ca- 
lificaciones del examen, donde los tallos sean 1 , 2 , 

3,..., 9. 

b) Determine una distribution de frecuencias relativas. 

c) Elabore un histograma de frecuencias relativas, trace 
un estimado de la grafica de la distribution y discuta 
la asimetrfa de la distribution. 

d ) Calcule la media, la mediana y la desviacion estandar 
de la muestra. 

1.19 Los siguientes datos representan la duration de 
vida, en anos, medida al decimo mas cercano, de 30 bom- 
bas de combustible similares. 
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2.0 

3.0 

0.3 

3.3 

1.3 

0.4 

0.2 

6.0 

5.5 

6.5 

0.2 

2.3 

1.5 

4.0 

5.9 

1.8 

4.7 

0.7 

4.5 

0.3 

1.5 

0.5 

2.5 

5.0 

1.0 

6.0 

5.6 

6.0 

1.2 

0.2 


a) Construya un diagrama de tallo y hojas para la vida, 
en anos, de las bombas de combustible, utilizando el 
di'gito a la izquierda del punto decimal como el tallo 
para cada observation. 

b) Determine una distribution de frecuencias relativas. 

c) Calcule la media, el rango y la desviacion estandar 
de la muestra. 

1.20 Los siguientes datos representan la duration de 
la vida, en segundos, de 50 moscas frutales que se so- 
meten a un nuevo aerosol en un experimento de labo- 
ratorio controlado. 


17 

20 

10 

9 

23 

13 

12 

19 

18 

24 

12 

14 

6 

9 

13 

6 

7 

10 

13 

7 

16 

18 

8 

13 

3 

32 

9 

7 

10 

11 

13 

7 

18 

7 

10 

4 

27 

19 

16 

8 

7 

10 

5 

14 

15 

10 

9 

6 

7 

15 


a) Elabore un diagrama doble de tallo y hojas para el 
periodo de vida de las moscas, usando los tallos 0*, 0-, 
1*, 1-, 2*, 2- y 3* de manera que los tallos codifica- 
dos con los si'mbolos * y • se asocien, respectivamen- 
te, con las hojas 0 a 4 y 5 a 9. 


c) Comente sobre si habrfa una indication clara o no 
de que la muestra proviene de una poblacion que 
describe una distribution en forma de campana. 

1.23 En 20 automoviles elegidos aleatoriamente, se 
tomaron las emisiones de hidrocarburos en velocidad 
en vaci'o, en partes por rnillon (ppm), para modelos de 
1980 y 1990. 


odelos 1980: 

141 359 247 

940 

882 

494 

306 

210 

105 

880 

200 223 188 

940 

241 

190 

300 

435 

241 

380 

odelos 1990: 

140 160 20 

20 

223 

60 

20 

95 

360 

70 

220 400 217 

58 

235 

380 

200 

175 

85 

65 


a) Construya una grafica de puntos como la de la figu- 
ra 1.1. 

b) Calcule la media de la muestra para los dos anos y 
sobreponga las dos medias en las graficas. 

c) Comente sobre lo que indica la grafica de puntos, 
respecto de si cambiaron o no las emisiones de la 
poblacion de 1980 a 1990. Utilice el concepto de va- 
riabilidad en su respuesta a este inciso. 

1.24 Los siguientes son datos historicos de los suel- 
dos del personal (dolares por alumno en 30 escuelas 
seleccionadas de la region este de Estados Unidos a 
principios de la decada de 1970). 


b) Determine una distribution de frecuencias relativas. 

c) Construya un histograma de frecuencias relativas. 

d ) Calcule la mediana. 

1.21 El contenido de nicotina, en miligramos, en 40 
cigarrillos de cierta marca se registraron como sigue: 


1.09 

1.92 

2.31 

1.79 

2.28 

1.74 

1.47 

1.97 

0.85 

1.24 

1.58 

2.03 

1.70 

2.17 

2.55 

2.11 

1.86 

1.90 

1.68 

1.51 

1.64 

0.72 

1.69 

1.85 

1.82 

1.79 

2.46 

1.88 

2.08 

1.67 

1.37 

1.93 

1.40 

1.64 

2.09 

1.75 

1.63 

2.37 

1.75 

1.69 


a) Encuentre la media y la mediana de la muestra. 

b) Calcule la desviacion estandar de la muestra. 

1.22 Los siguientes datos constituyen mediciones del 
diametro de 36 cabezas de remache en centesimos de 
una pulgada. 


6.72 

6.77 

6.82 

6.70 

6.78 

6.70 

6.62 

6.75 

6.66 

6.66 

6.64 

6.76 

6.73 

6.80 

6.72 

6.76 

6.76 

6.68 

6.66 

6.62 

6.72 

6.76 

6.70 

6.78 

6.76 

6.67 

6.70 

6.72 

6.74 

6.81 

6.79 

6.78 

6.66 

6.76 

6.76 

6.72 





a) Calcule la 

media 

y la 

desviacion 

estandar de 


muestra. 


b) Construya un histograma de frecuencias relativas 
para los datos. 


3.79 

2.99 

2.77 

2.91 

3.10 

1.84 

2.52 

3.22 

2.45 

2.14 

2.67 

2.52 

2.71 

2.75 

3.57 

3.85 

3.36 

2.05 

2.89 

2.83 

3.13 

2.44 

2.10 

3.71 

3.14 

3.54 

2.37 

2.68 

3.51 

3.37 




a) Calcule la media y la desviacion estandar de la 
muestra. 

b) Con los datos elabore un histograma de frecuencias 
relativas. 

c) Construya un diagrama de tallo y hojas con los datos. 

1.25 El siguiente conjunto de datos se relaciona con 
el ejercicio anterior y representa el porcentaje de las fa- 
milias que se ubican en el nivel superior de ingresos en 
las mismas escuelas individuates y con el mismo or- 
den del ejercicio 1.24. 


72.2 

31.9 

26.5 

29.1 

27.3 

8.6 

22.3 

26.5 

20.4 

12.8 

25.1 

19.2 

24.1 

58.2 

68.1 

89.2 

55.1 

9.4 

14.5 

13.9 

20.7 

17.9 

8.5 

55.4 

38.1 

54.2 

21.5 

26.2 

59.1 

43.3 




a) Calcule la media de la muestra. 

b) Calcule la mediana de la muestra. 

c) Construya un histograma de frecuencias relativas 
con los datos. 

d) Determine la media recortada 10%. Comparela con 
los resultados de los incisos a) y b) y exprese su co- 
mentario. 

1.26 Suponga que le interesa emplear los conjuntos 

de datos de los ejercicios 1.24 y 1.25 para derivar un 
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modelo que prediga los salarios del personal como una 
funcion del porcentaje de familias en un nivel alto de 
ingresos para los sistemas escolares actuales. Comente 
sobre cualquier desventaja de llevar a cabo este tipo 
de analisis. 

1.27 Se realizo un estudio para determinar la influen- 
cia del desgaste, y, de un cojinete como una funcion de 
la carga, x, sobre el cojinete. Se utiliza un diseno expe- 
rimental para este estudio. Se emplearon tres niveles de 
carga: 700 lb, 1000 lb y 1300 lb. Se utilizaron cuatro es- 
pecfmenes en cada nivel y las medias muestrales fueron, 
respectivamente, 210, 325 y 375. 

a) Grafique el promedio de desgaste contra la carga. 

b) A partir de la grafica del inciso anterior, ^parece que 
haya una relation entre desgaste y carga? 

c) Suponga que tenemos los siguientes valores indivi- 
duates de desgaste para cada uno de los cuatro espe- 
timenes en los respectivos niveles de carga. 


x 


700 

1000 

1300 

145 

250 

150 

105 

195 

180 

260 

375 

420 

330 

480 

750 

yi = 210 

y 2 = 325 

y 3 = 375 


Grafique los resultados para todos los especimenes 
contra los tres valores de carga. 

d ) A partir de la grafica del inciso anterior, ^parece que 
haya una relation tiara? Si su respuesta es diferente 
de la del inciso 6), explique por que. 

1.28 En Estados Unidos y otros pai'ses muchas com- 
pani'as de manufactura utilizan piezas moldeadas como 
componentes de un proceso. La contraction (encogimien- 
to) a menudo es un problema importante, de manera que 
un dado de metal moldeado para una pieza se construye 
mas grande que el tamano nominal para considerar su 
contraction. En un estudio de moldeado por inyeccion se 
descubrio que la contraction esta infiuida por multiples 
factores, entre los cuales estan la velocidad de la inyec- 
cion en pies/segundo y la temperatura de moldeado en 
°C. Los dos conjuntos de datos siguientes muestran los 
resultados de un experimento disenado, donde la velo- 
cidad de inyeccion se mantuvo a dos niveles (“bajo” y 
“alto” ) y la temperatura de moldeado se mantuvo cons- 
tantemente en un nivel “bajo” . La contraction de midio 
en cm x 10 4 . 

Los valores de contraction a una velocidad de inyeccion 
baja fueron: 

72.68 72.62 72.58 72.48 73.07 
72.55 72.42 72.84 72.58 72.92 


Los valores de contraction a una velocidad de inyeccion 
alt a fueron: 

71.62 71.68 71.74 71.48 71.55 
71.52 71.71 71.56 71.70 71.50 

a) Construya una grafica de puntos para ambos conjun- 
tos de datos en la misma grafica. Sobre esta indique 
ambas medias de la contraction, tanto para la velo- 
cidad de inyeccion baja como para la velocidad de 
inyeccion alta. 

b) Con base en los resultados de la grafica del inciso an- 
terior, y considerando la ubicacion de las dos medias 
y su sentido de variabilidad, ^c.ual es su conclusion 
respecto del efecto de la velocidad inyeccion sobre la 
contraction a una temperatura de moldeado “baja”? 

1.29 Considere la situation del ejercicio 1.28; pero aho- 
ra utilice el siguiente conjunto de datos, en el cual la 
contraction se mide de nuevo a una velocidad de inyec- 
cion baja y a una velocidad de inyeccion alta. Sin em- 
bargo, esta vez la temperatura de moldeado se aumenta 
a un nivel “alto” y se mantiene constante. 

Los valores de contraction a una velocidad de inyeccion 
baja fueron: 

76.20 76.09 75.98 76.15 76.17 

75.94 76.12 76.18 76.25 75.82 

Los valores de contraction a una velocidad de inyeccion 
alta fueron: 

93.25 93.19 92.87 93.29 93.37 

92.98 93.47 93.75 93.89 91.62 

a) Como en el ejercicio 1.28, elabore una grafica de pun- 
tos con ambos conjuntos de datos en la misma grafica 
e identifique las dos medias (es decir, la contraction 
media para la velocidad de inyeccion baja y para la 
velocidad de inyeccion alta). 

b) Como en el ejercicio 1.28, comente la influencia de la 
velocidad de inyeccion en la contraction para la tempe- 
ratura de moldeado alta. Tome en cuenta la position 
de las dos medias y la variabilidad de cada media. 

c) Compare su conclusion en el inciso b) actual con la 
del inciso b ) del ejercicio 1.28, en el cual la tempera- 
tura de moldeado se mantuvo a un nivel bajo. ^Diria 
que hay interaction entre la velocidad de inyeccion y 
la temperatura de moldeado? Explique. 

1.30 Utilice los resultados de los ejercicios 1.28 y 1.29 
para crear una grafica que ilustre la interaction evidente 
entre los datos. Use como guia la grafica de la figura 1.3 
del ejemplo 1.3. /,E1 tipo de information encontrada en 
los ejercicios 1.28, 1.29 y 1.30 podrfa encontrarse en el 
caso de un estudio observacional, donde el analista no 
tiene control sobre la velocidad de inyeccion ni sobre la 
temperatura de moldeado? Explique. 


Capitulo 2 

Probabilidad 


2.1 Espacio muestral 

En el estudio de la estadi'stica tratamos basicamente con la presentation e inter- 
pretation de resultados fortuitos que ocurren en un estudio planeado o en una 
investigation cientifica. Por ejemplo, al registrar el numero de accidentes que ocu- 
rren mensualmente en la interseccion de Driftwood Lane y Royal Oak Drive, con la 
finalidad de justificar la instalacion de un semaforo; o al clasificar los arti'culos que 
salen de una li'nea de ensamble como “defectuosos” o “no defectuosos” ; o al revisar el 
volumen de gas que se libera en una reaction quunica cuando se vari'a la concentra- 
tion de un acido. Por ello, el estadi'stico a menudo trata con datos experimentales, 
conteos o mediciones representatives, o quiza con datos categoricos que se podri'an 
clasificar de acuerdo con algun criterio. 

Nos referiremos a cualquier registro de information, ya sea numerico o categori- 
co, como una observation. Asf, los numeros 2, 0, 1 y 2, que representan el numero 
de accidentes que ocurrieron cada mes, de enero a abril, durante el ano pasado en 
la interseccion de Driftwood Lane y Royal Oak Drive, constituyen un conjunto de 
observaciones. Asimismo, los datos categoricos N, D, N, N y D, que representan 
los artfculos defectuosos o no defectuosos cuando se inspeccionan cinco artfculos, se 
registran como observaciones. 

Los estadi'sticos utilizan la palabra experimento para describir cualquier proce- 
so que genere un conjunto de datos. Un ejemplo simple de experimento estadi'stico 
es el lanzamiento de una moneda al aire. En tal experimento solo hay dos resultados 
posibles: cara o cruz. Otro experimento seri'a el lanzamiento de un misil y la obser- 
vation de su velocidad en tiempos espetificos. Las opiniones de los votantes respecto 
de un nuevo impuesto sobre ventas tambien se pueden considerar como observacio- 
nes de un experimento. Estamos particularmente interesados en las observaciones 
que se obtienen por la repetition del experimento varias veces. En la mayorfa de los 
casos los resultados dependeran del azar y, por lo tanto, no se predicen con certeza. 
Si un qunnico realiza un analisis varias veces con las mismas condiciones, obtendra 
diferentes medidas, que indican un elemento de probabilidad en el procedimiento 
experimental. Incluso cuando se lanza una moneda al aire de forma repetida, no po- 
demos tener la certeza de que un lanzamiento dado tendra cara como resultado. Sin 
embargo, conocemos el conjunto completo de posibilidades para cada lanzamiento. 
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Definition 2.1: 


Ejemplo 2.1: 


Ejemplo 2.2: 


Considerando el analisis realizado en la seccion 1.9, deberi'amos considerar el alcan- 
ce del termino experimento. Se revisaron tres tipos de estudios estadi'sticos y se dieron 
varios ejemplos de cada uno. En cada uno de los tres casos — experimentos disenados, 
estudios observacionales y estudios retrospectivos — , el resultado final fue un con- 
junto de datos que, en efecto, esta sujeto a la incertidumbre. Aunque solo uno de 
ellos tiene la palabra experimento en su description, el proceso de general' los datos o 
el proceso de observarlos forman parte de un experimento. El estudio de la corrosion 
discutido en la seccion 1.3 con seguridad implica un experimento cuyas mediciones 
de la corrosion representan los datos. El ejemplo de la seccion 1.9, en el cual se ob- 
servaron el colesterol y el sodio en la sangre de un conjunto de individuos, represento 
un estudio observational (que es diferente de un experimento disenado ); e incluso el 
proceso de generation de datos y el resultado fueron inciertos. Asi son los experimen- 
tos. Un tercer ejemplo de la seccion 1.9 represento un estudio retrospectivo, en el 
cual se observaron datos historicos sobre el consumo mensual de energfa electrica y 
el promedio mensual de la temperatura ambiental. Sin embargo, aun cuando los datos 
hayan estado archivados durante decadas, el proceso se considerara un experimento. 

El conjunto de todos los resultados posibles de un experimento estadistico se llama 
espacio muestral y se representa con el simbolo S. 

A cada resultado en un espacio muestral se le llama elemento o miembro del 
espacio muestral, o simplemente punto muestral. Si el espacio muestral tiene un 
numero finito de elementos, podemos listar los miembros separados por comas y en- 
cerrarlos entre Haves. De esta forma, el espacio muestral S , de los resultados posibles 
cuando se lanza una moneda al aire, se escribe como 

S = {H, T}, 

donde H y T corresponden a “caras” y “cruces”, respectivamente. 


Considere el experimento de lanzar un dado. Si nos interesamos en el numero que 
muestre en la cara superior, el espacio muestral seria 

Si = {1, 2, 3, 4, 5, 6}. 

Si nos interesamos solo en si el numero es par o impar, el espacio muestral es simplemente 

S 2 = {par, impar}. 

El ejemplo 2.1 ilustra el hecho de que se puede usar mas de un espacio muestral 
para describir los resultados de un experimento. En este caso Si brinda mas informa- 
tion que S 2 . Si sabemos cual elemento en Si ocurre, podremos indicar cual resultado 
tiene lugar en S 2 ; no obstante, el conocimiento de lo que pasa en S 2 no ayuda mucho 
en la determination de que elemento ocurre en Si. En general, se desea utilizar un 
espacio muestral que de la mayor information acerca de los resultados del experi- 
mento. En algunos experimentos es util listar los elementos del espacio muestral de 
forma sistematica utilizando un diagrama de arbol. 


Un experimento consiste en lanzar una moneda y despues lanzarla una segunda vez 
si sale cara. Si sale cruz en el primer lanzamiento, entonces se lanza un dado una vez. 
Para listar los elementos del espacio muestral que proporcione la mayor information, 
construimos el diagrama de arbol de la figura 2.1. Las diversas trayectorias a lo largo 
de las ramas del arbol dan los distintos puntos muestrales. Al comenzar con la rama 
superior izquierda y movernos a la derecha a lo largo de la primera trayectoria, obtene- 
mos el punto muestral HH, que indica la posibilidad de que ocurran caras en dos lanza- 
mientos sucesivos de la moneda. Asimismo, el punto muestral T3 indica la posibilidad 
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Figura 2.1: Diagrama de arbol para el ejemplo 2.2. 


de que la moneda mostrara una cruz seguida por un 3 en el lanzamiento del dado. A1 
seguir a lo largo de todas las trayectorias, vemos que el espacio muestral es 

S = {HH, HT , Tl, T2, T3, T4, T5, T6}. 

Muchos de los conceptos de este capitulo se ilustran mejor con ejemplos que 
tienen que ver con ilustraciones tales como el empleo de dados y cartas. Se trata de 
aplicaciones muy importantes para utilizar al principio del proceso de aprendizaje, lo 
cual nos permitira el uso de los nuevos conceptos para avanzar con mayor facilidad 
el estudiar ejemplos de ciencia e ingenieria como el siguiente. 


Ejemplo 2.3:1 Suponga que de un proceso de fabrication se seleccionan tres articulos de forma alea- 
toria. Cada articulo se inspecciona y clasifica como defectuoso, D , o sin defectos (no 
defectuoso), N. Para listar los elementos del espacio muestral que brinde la mayor in- 
formation, construimos el diagrama de arbol de la figura 2.2, de manera que las diver- 
sas trayectorias a lo largo de las ramas del arbol dan los distintos puntos muestrales. 
Al comenzar con la primera trayectoria, obtenemos el punto muestral DDD , que indica 
la posibilidad de que los tres articulos inspeccionados esten defectuosos. Conforme 
continuamos a lo largo de las demas trayectorias, vemos que el espacio muestral es 

S = {DDD, DDN , DND, DNN, NDD, NDN, NND, NNN}. 

Los espacios muestrales con un numero grande o infinito de puntos muestrales 
se describen mejor mediante un enunciado o regia. Por ejemplo, si los resultados 
posibles de un experimento son el conjunto de ciudades en el mundo con una pobla- 
cion de mas de un millon, nuestro espacio muestral se escribe como 

S = {a; | x es una ciudad con una poblacion de mas de un millon}, 

que se lee “S es el conjunto de todas las x tales que x es una ciudad con una pobla- 
cion de mas de un millon”. La barra vertical se lee “tal que”. De manera similar, si S 
es el conjunto de todos los puntos (x, y) sobre la frontera o el interior de un cfrculo 
de radio 2 con centro en el origen, escribimos la regia 

S = {(®, U) I x 2 + y 2 < 4}. 
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Figura 2.2: Diagrama de arbol para el ejemplo 2.3. 


Si describimos el espacio muestral utilizando el metodo de la regia o listando los 
elementos dependera del problema especffico en cuestion. El metodo de la regia tiene 
ventajas practicas, en especial para los diversos experimentos donde un listado se 
vuelve una tarea tediosa. 

Considere la situation del ejemplo 2.3 donde los artfculos que salen del proceso 
de fabrication estan ya sea D , defectuoso, o N, sin defectos. Hay muchos procedi- 
mientos estadi'sticos importantes llamados planes de muestreo que determinan si 
un “lote” de artfculos se considera satisfactorio o no. Un plan asf implica tomar 
muestras hasta que se obtengan k artfculos defectuosos. Suponga que el experimen- 
to consiste en tomar de forma aleatoria muestras de artfculos hasta que saiga uno 
defectuoso. En este caso, el espacio muestral serfa 

S = {D, ND , NND, NNND , . . .}. 


2.2 Eventos 


Para cualquier experimento dado podemos enfocarnos en la ocurrencia de ciertos 
eventos, mas que en el resultado de un elemento especffico en el espacio muestral. 
Por ejemplo, quizas estemos interesados en el evento A, en el cual al lanzarse un 
dado el resultado es divisible entre 3. 6ste ocurrira si el resultado es un elemento 
del subconjunto A = {3, 6} del espacio muestral Si del ejemplo 2.1. Como ilustra- 
cion adicional, nos podemos interesar en el evento B de que el numero de artfculos 
defectuosos sea mayor que 1 en el ejemplo 2.3. Esto ocurrira si el resultado es un 
elemento del subconjunto 

B = {DDN, DND , NDD, DDD} 

del espacio muestral S. 

Para cada evento asignamos una coleccion de puntos muestrales, que constituye 
un subconjunto del espacio muestral. Ese subconjunto representa la totalidad de los 
elementos para los que el evento es cierto. 
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Definicion 2.2: 


Un evento es un subconjunto de un espacio muestral. 


Ejemplo 2.4:1 Dado el espacio muestral S = {t \ t > 0}, donde t es la vida en anos de cierto com- 
ponente electronico, entonces el evento A de que el componente falle antes de quo 
finalice el quinto ano es el subconjunto A={t|0<t<5}. 

Es concebible que un evento sea un subconjunto que incluya todo el espacio 
muestral S, o un subconjunto de S que se denomina conjunto vacio y se denota 
con el smibolo <j), que no contiene elemento alguno. Por ejemplo, si hacemos que A 
sea el evento de detectar un organismo microscopico a simple vista en un experimen- 
to biologico, entonces A = <j>. Tambien, si 

B = {x | x es un factor par de 7}, 


entonces B debe ser el conjunto vacio, pues los unicos factores posibles de 7 son los 
numeros nones 1 y 7. 

Considere un experimento donde se registran los habitos de fumar de los emplea- 
dos de una compama industrial. Un posible espacio muestral podria clasificar a un 
individuo como no fumador, fumador ligero, fumador moderado o fumador empeder- 
nido. Sea el subconjunto de los fumadores un evento. Entonces, la totalidad de los 
no fumadores corresponde a un evento diferente, tambien subconjunto de S, que se 
denomina complemento del conjunto de fumadores. 


Definicion 2.3: 


El complemento de un evento A respecto de S es el subconjunto de todos los 
elementos de S que no estan en A. Denotamos el complemento de A mediante el 
smibolo A'. 


Ejemplo 2.5:1 Sea R el evento de que se seleccione una carta roja de una baraja ordinaria de 52 
cartas, y sea S toda la baraja. Entonces, R' es el evento de que la carta seleccionada 
de la baraja no sea una roja sino una negra. 


Ejemplo 2.6:1 Considere el espacio muestral 

S = {libro, catalizador, cigarrillo, precipitado, ingeniero, remache}. 

Sea A = {catalizador, remache, libro, cigarrillo}. Entonces, el complemento de A es 
A ' = {precipitado, ingeniero}. 

Consideremos ahora ciertas operaciones con eventos que tendran como resultado 
la formacion de nuevos eventos. Tales eventos nuevos seran subconjuntos del mismo 
espacio muestral como los eventos dados. Suponga que Ay B son dos eventos que se 
asocian con un experimento. En otras palabras, Ay B son subconjuntos del mismo 
espacio muestral S. Por ejemplo, en el lanzamiento de un dado podemos hacer que 
A sea el evento de que ocurra un numero par, y B el evento de que aparezca un 
numero mayor que 3. Entonces, los subconjuntos A = {2, 4, 6} y B = {4, 5, 6} son 
subconjuntos del mismo espacio muestral 

S={ 1, 2, 3, 4, 5, 6}. 

Note que tanto A como B ocurriran en un lanzamiento dado, si el resultado es un 
elemento del subconjunto {4, 6}, el cual es precisamente la interseccion de A y B. 


Definicion 2.4: 


La interseccion de dos eventos Ay B, que se denota con el smibolo A (~l B, es el 
evento que contiene todos los elementos que son comunes a A y a B. 
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Ejemplo 2.7:1 Sea C el evento de que una persona seleccionada al azar en un cafe Internet sea un estu- 
diante universitario, y sea M el evento de que la persona sea hombre. Entonces C fl M 
es el evento de todos los estudiantes universitarios hombres en el cafe Internet. 


Ejemplo 2.8:1 Sean M = {a, e, i, o, u} y N = {r, s, £}; entonces, se sigue que M fl N = <j>. Es decir, 
M y N no tienen elementos comunes y, por lo tanto, no pueden ocurrir ambos de 
forma simultanea. 

Para ciertos experimentos estadfsticos no es nada extrano definir dos eventos, A 
y B, que no pueden ocurrir de forma simultanea. Se dice entonces que los eventos A y 
B son mutuamente excluyentes. Expresado de manera mas formal, tenemos la 
siguiente definition: 


Definition 2.5: 


Dos eventos Ay B son mutuamente excluyentes o disjuntos si A n B = cj>] es 
decir, si A y B no tienen elementos en comun. 


Ejemplo 2.9:1 Una compama de television por cable ofrece programas en ocho diferentes canales, 
tres de los cuales estan afiliados con abc, dos con nbc y uno con cbs. Los otros dos 
son un canal educativo y el canal de deportes espn. Suponga que un individuo que 
se suscribe a este servicio enciende un televisor sin seleccionar de antemano el ca- 
nal. Sea A el evento de que el programa pertenezca a la red nbc y B el evento de 
que pertenezca a la red CBS. Como un programa de television no puede pertenecer a 
mas de una red, los eventos Ay B no tienen programas en comun. Por lo tanto, la 
intersection A (~l B no contiene programa alguno y, en consecuencia, los eventos A 
y B son mutuamente excluyentes. 

A menudo nos interesamos en la ocurrencia de al menos uno de dos eventos aso- 
ciados con un experimento. Asf, en el experimento del lanzamiento de un dado, si 

A = {2, 4, 6} y B = {4, 5, 6}, 


podemos interesarnos en que ocurran A o B, o en que ocurran tanto A como B. Tal 
evento, que se llama la union de Ay B 1 ocurrira si el resultado es un elemento del 
subconjunto {2, 4, 5, 6}. 


Definition 2.6: 


La union de dos eventos Ay B, que se denota con el sfmbolo A U B 1 es el evento 
que contiene todos los elementos que pertenecen a A o a B o a ambos. 


Ejemplo 2.10:1 Sea A = {a, b, c} y B = {6, c, d, e}, entonces, A U B = {a, b, c, d, e}. 


Ejemplo 2.11:1 Sea P el evento de que un empleado seleccionado al azar de una compama petrolera 
fume cigarrillos. Sea Q el evento de que el empleado seleccionado ingiera bebidas 
alcoholicas. Entonces, el evento P U Q es el conjunto de todos los empleados que 
beben o fuman, o que hacen ambas cosas. 

Ejemplo 2.12:1 SiM={x\3<x<9}yN={y\5<y< 12}, entonces, 

MU N = {z\3< z< 12}. 

La relation entre eventos y el correspondiente espacio muestral se puede ilustrar 
de forma grafica utilizando diagramas de Venn. En un diagrama de Venn repre- 
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Figura 2.3: Eventos representados por varias regiones. 


sentamos el espacio muestral como un rectangulo y los eventos con cfrculos trazados 
dentro del rectangulo. De esta forma, en la figura 2.3, vemos que 

A Cl B = regiones 1 y 2, 

B (~l C = regiones 1 y 3, 

A U C = regiones 1, 2, 3, 4, 5 y 7, 

B' C\ A = regiones 4 y 7, 

A n B n C = region 1, 

{A U B) n C = regiones 2, 6 y 7, 

y asi sucesivamente. En la figura 2.4 vemos que los eventos A, B y C son subconjun- 
tos del espacio muestral S. Tambien es claro que el evento B es un subconjunto del 
evento A ; el evento B n C no tiene elementos y, por ello, B y C son mutuamente 
excluyentes; el evento A n C tiene al menos un elemento; y el evento A U B = A. 
La figura 2.4 puede, por lo tanto, representar una situation donde seleccionamos 
una carta al azar de una baraja ordinaria de 52 cartas y observamos si ocurren los 
siguientes eventos: 

A: la carta es roja, 

B : la carta es el jack, la reina o el rey de diamantes, 

C: la carta es un as. 

Claramente, el evento A fl C consiste solo en los dos ases rojos. 

Varios resultados que se derivan de las definiciones precedentes, y que se pueden 
verificar de forma sencilla empleando diagramas de Venn, son los que siguen: 

1. A n <j) = cj). 

2. A U <j) = A. 

3. A (~l A' = (j). 

4. A U A! = S. 

5. S' = cj>. 

6 . $ = S. 

7 . ( A')' = A. 

8. (A n B)' = A! U B'. 

9. (A U B)' = A! n B'. 
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Figura 2.4: Eventos del espacio muestral S. 


Ej ercicios 

2.1 Liste los elementos de cada uno de los siguientes 
espacios muestrales: 

a) el conjunto de numeros enteros entre 1 y 50 que son 
divisibles entre 8; 

b) el conjunto S = {x \ x 2 + 4x — 5 = 0}; 

c) el conjunto de resultados cuando se lanza una mone- 
da al aire hasta que aparecen una cruz o tres caras; 

d) el conjunto S = (x \ x es un continente); 

e) el conjunto S = {x \ 2x — 4 > 0 yi < 1). 

2.2 Utilice el metodo de la regia para describir el es- 
pacio muestral S, que consiste en todos los puntos del 
primer cuadrante dentro de un circulo de radio 3 con 
centro en el origen. 

2.3 ^Cuales de los siguientes eventos son iguales? 

a) A = {1,3}; 

b) B = {x | x es un numero de un dado}; 

c) C = {x | x 2 — Ax + 3 = 0}; 

d) D = {x | x es el numero de caras cuando se lanzan 
seis monedas al aire}. 

2.4 Un experimento implica lanzar un par de dados, 
uno verde y uno rojo, y registrar los numeros que salen. 
Si x es igual al resultado en el dado verde y y es el re- 
sultado en el dado rojo, describa el espacio muestral S 

a ) mediante la lista de los elementos (x, y ); 

b) usando el metodo de la regia. 

2.5 Un experimento consiste en lanzar un dado y des- 
pues lanzar una moneda una vez, si el numero en el 
dado es par. Si el numero en el dado es impar, la mone- 
da se lanza dos veces. Use la notation 4 H, por ejemplo, 
para denotar el resultado de que el dado muestre 4 y 
despues la moneda saiga cara, y 3 HT para denotar el 


resultado de que el dado muestre 3 seguido por una 
cara y despues una cruz en la moneda; construya un 
diagrama de arbol para mostrar los 18 elementos del 
espacio muestral S. 

2.6 Se seleccionan dos jurados de cuatro suplentes 
para servir en un juicio por homicidio. Usando la nota- 
tion A 1 A 3 , por ejemplo, para denotar el evento simple 
de que se seleccionen los suplentes 1 y 3, liste los 
6 elementos del espacio muestral S. 

2.7 Se seleccionan al azar cuatro estudiantes de una 
clase de quimica y se clasifican como masculino o feme- 
nino. Liste los elementos del espacio muestral S 1 usando 
de la letra M para “masculino” , y F para “femenino” . 
Defina un segundo espacio muestral S 2 donde los elemen- 
tos representen el numero de mujeres seleccionadas. 

2.8 Para el espacio muestral del ejercicio 2.4: 

a) liste los elementos que corresponden al evento A de 
que la suma sea mayor que 8; 

b) liste los elementos que corresponden al evento B de 
que ocurra un 2 en cualquiera de los dos dados; 

c) liste los elementos que corresponden al evento C de 
que saiga un numero mayor que 4 en el dado verde; 

d) liste los elementos que corresponden al evento An C, 

e) liste los elementos que corresponden al evento AflB, 
/) liste los elementos que corresponden al evento B (1 C, 
g ) construya un diagrama de Venn para ilustrar la in- 

tersecciones y uniones de los eventos A, B y C. 

2.9 Para el espacio muestral del ejercicio 2.5: 

a) liste los elementos que corresponden al evento A de 
que en el dado saiga un numero menor que 3; 

b) liste los elementos que corresponden al evento B de 
que ocurran 2 cruces; 
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c) liste los elementos que corresponden al evento A', 

d) liste los elementos que corresponden al evento A! fl B, 

e ) liste los elementos que corresponden al evento A U B. 

2.10 Se contrata a una firma de ingenieros para que 
determine si ciertas vias fluviales en Virginia son segu- 
ras para la pesca. Se toman muestras de tres rfos. 

a) Liste los elementos de un espacio muestral S, y utili- 
ce las letras F para “seguro para la pesca” , y N para 
“inseguro para la pesca”. 

b) Liste los elementos de S que correspondan al evento 
E de que al menos dos de los rios son seguros para 
la pesca. 

c) Defina un evento que tenga como sus elementos los 
puntos 

{FFF, NFF , FFN, NFN}. 

2.11 Los curricula de dos aspirantes masculinos para 
el puesto de profesor de quimica en una facultad se 
colocan en el mismo archivo que los curricula de dos 
aspirantes mujeres. Hay dos puestos disponibles y el 
primero, con el rango de profesor asistente, se cubre 
mediante la selection al azar de 1 de los 4 aspirantes. 
El segundo puesto, con el rango de profesor titular, se 
cubre despues mediante la selection aleatoria de uno 
de los 3 aspirantes restantes. Utilizando la notation 
M 2 Fi , por ejemplo, para denotar el evento simple de 
que el primer puesto se cubra con el segundo aspirante 
hombre y el segundo puesto se cubra despues con la 
primera aspirante mujer: 

a) liste los elementos de un espacio muestral S\ 

b ) liste los elementos de S que corresponden al evento 
A de que el puesto de profesor asistente se cubra con 
un aspirante hombre; 

c) liste los elementos de S que corresponden al evento 
B de que exactamente 1 de los 2 puestos se cubra 
con un aspirante hombre; 

d) liste los elementos de S que corresponden al evento 
C de que ningun puesto se cubra con un aspirante 
hombre; 

e) liste los elementos de S que corresponden al evento 
Ar B, 

/) liste los elementos de S que corresponden al evento 
AuC, 

g ) construya un diagrama de Venn para ilustrar las in- 
tersecciones y las uniones de los eventos A, B y C. 

2.12 Se estudian el ejercicio y la dieta como posibles 
sustitutos de la medication para bajar la presion sangui- 
nea. Se utilizaran tres grupos de individuos para estudiar 
el efecto del ejercicio. El grupo uno es sedentario, mien- 
tras que el grupo dos camina, y el grupo tres nada una 
hora al dia. La mitad de cada uno de los tres grupos de 
ejercicio tendra una dieta sin sal. Un grupo adicional 
de individuos no hara ejercicio ni restringira su consu- 


mo de sal, pero tomara la medication estandar. Use 
Z para sedentario, W para caminante, S para nada- 
dor, Y para sal, N para sin sal, M para medication, 
y F para sin medicamentos. 

a) Muestre todos los elementos del espacio muestral S. 

b) Dado que A es el conjunto de individuos sin medi- 
camento y B es el conjunto de caminantes, liste los 
elementos de A U B. 

c) Liste los elementos de A fl B. 

2.13 Construya un diagrama de Venn para ilustrar 
las posibles intersecciones y uniones para los siguientes 
eventos relativos al espacio muestral que consiste en 
todos los automoviles fabricados en Estados Unidos. 

F: cuatro puertas, S: techo corredizo, 

P: direction hidraulica. 

2.14 Si S = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} y A = {0, 2, 4, 
6, 8}, B = {1, 3, 5, 7, 9}, C = {2, 3, 4, 5}yD = {1, 6, 
7}, liste los elementos de los conjuntos que correspon- 
den a los siguientes eventos: 

a) A U C; 

b) AflB; 

c) C'- 

d ) (C 1 n D) U B- 

e) (S n C)' ; 

f) Aren D'. 

2.15 Considere el espacio muestral S = {cobre, sodio, 
nitrogeno, potasio, uranio, oxigeno, cine} y los eventos 

A = {cobre, sodio, cine}, 

B = {sodio, nitrogeno, potasio}, 

C = {oxigeno}. 

Liste los elementos de los conjuntos que corresponden 
a los siguientes eventos: 

a) A'- 

b) A U C; 

c) (A n B') U C"; 

d) B' n C" ; 

e) A l~l B n C; 

/) {A! u5')n(A'n C ). 

2.16 Si S = {x I 0 < x < 12}, M = {x | 1 < x < 9}, 
y Af= {1 | 0 < 1 < 5}, encuentre 

а) MuJV; 

б) M l~l IV; 
c) M' nN'. 

2.17 Sean A, By C eventos relativos al espacio mues- 
tral S. Con el uso de diagramas de Venn, sombree las 
areas que representan los siguientes eventos: 
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a) (A n B)'\ 

b) (A U B)'- 

c) (AnC)U B. 

2.18 ^Cual de los siguientes pares de eventos son mu- 
tuamente excluyentes? 

a) Un golfista que se clasifica en ultimo lugar en la 
vuelta del hoyo 18 en un torneo de 72 hoyos y pierde 
el torneo. 

b) Un jugador de poquer que tiene flor (todas las cartas 
del mismo palo) y 3 de un tipo en la misma mano de 
5 cartas. 

c) Una madre que da a luz a una nina y un par de 
gemelas el mismo dfa. 

d ) Un jugador de ajedrez que pierde el ultimo juego y 
gana el torneo. 

2.19 Suponga que una familia sale de vacaciones de 
verano en su casa rodante y que M es el evento de que 
sufriran fallas mecanicas, T es el evento de que reci- 
biran una boleta de infraccion por cometer una falta 
de transito y V es el evento de que llegaran a un lugar 
para acampar que este lleno. Refierase al diagrama de 


Venn de la figura 2.5, exprese con palabras los eventos 

representados por las siguientes regiones: 

a) region 5; 

b) region 3; 

c) regiones 1 y 2 juntas; 

d ) regiones 4 y 7 juntas; 

e) regiones 3, 6, 7 y 8 juntas. 

2.20 Refierase al ejercicio 2.19 y al diagrama de Venn 

de la figura 2.5, liste los numeros de las regiones que 

representan los siguientes eventos: 

a) La familia no experimental fallas mecanicas y no 
cometera infracciones de transito, pero encontrara 
que el lugar para acampar estara lleno. 

b) La familia experimentara tanto fallas mecanicas 
como problemas para localizar un lugar disponible 
para acampar, pero no recibira una multa por in- 
fraccion de transito. 

c) La familia experimentara fallas mecanicas o encon- 
trara un lugar para acampar lleno, pero no recibira 
una multa por cometer una infraccion de transito. 

d) La familia no llegara a un lugar para acampar lleno. 



Figura 2.5: Diagrama de Venn para los ejercicios 2.19 y 2.20. 


2.3 Conteo de puntos muestrales 

Uno de los problemas que el estadfstico debe considerar e intentar evaluar es el ele- 
mento de posibilidad asociado con la ocurrencia de ciertos eventos cuando se realiza 
un experimento. Estos problemas pertenecen al campo de la probabilidad, un tema 
que se estudiara en la seccion 2.4. En muchos casos debemos ser capaces de resolver 
un problema de probabilidad mediante el conteo del numero de puntos en el espacio 
muestral, sin listar realmente cada elemento. El principio fundamental del conteo, a 
menudo denominado regia de multiplicacion, se establece como sigue: 


2.3 Conteo de puntos muestrales 
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Teorema 2.1: 


Ejemplo 2.13:1 
Solucion: 


Ejemplo 2.14:1 

Solucion: 


Si una operation se puede llevar a cabo en n\ formas, y si para cada una de estas 
se puede realizar una segunda operation en n 2 formas, entonces las dos operaciones se 
pueden ejecutar juntas de n\U 2 formas. 


^Cuantos puntos muestrales hay en el espacio muestral cuando un par de dados se 
lanza una vez? 

El primer dado puede caer en cualquiera de n\ = 6 maneras. Para cada una de esas 
6 maneras el segundo dado tambien puede caer en n 2 = 6 formas. Por lo tanto, el 
par de dados puede caer en 

Ti\Ti 2 = (6) (6) = 36 formas posibles. 



Figura 2.6: Diagrama de arbol para el ejemplo 2.14. 


Un urbanista de una nueva subdivision ofrece a los futures compradores de una casa 
la election del estilo de la fachada entre Tudor, rustica, colonial y traditional en una 
planta, dos pisos y desniveles. ^En cuantas formas diferentes un comprador puede 
ordenar una de estas casas? 

Como ni = 4 y ri 2 = 3, un comprador debe elegir entre 

n\ji 2 = (4) (3) = 12 casas posibles. 

Las respuestas a los dos ejemplos anteriores se comprueba con la construction de 
diagramas de arbol y el conteo de las diversas trayectorias a lo largo de las ramas. 
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Teorema 2.2: 


Ejemplo 2.15:1 

Solucion: 


Ejemplo 2.16:1 
Solucion: 


Asi, en el ejemplo 2.14 habra n i = 4 ramas que corresponden a los diferentes estilos 
de la fachada, y despues habra 712 = 3 ramas que se extienden de cada una de estas 
4 ramas para representar los diferentes planes de plantas. Este diagrama de arbol da 
las n\U 2 = 12 elecciones de casas dadas por las trayectorias a lo largo de las ramas, 
como se ilustra en la figura 2.6. 

La regia de multiplication del teorema 2.1 se puede extender para cubrir cual- 
quier numero de operaciones. Por ejemplo, suponga, que un cliente desea instalar un 
telefono de AT&T™ y puede elegir entre n\ = 10 colores decorativos, que supon- 
dremos disponibles en cualquiera de U 2 = 3 longitudes opcionales de cordon, con 
n^ — 2 tipos de marcado, es decir, de disco o por tonos. Estas tres clasificaciones dan 
como resultado 711712/13 = (10) (3) (2) = 60 diferentes formas para que un cliente or- 
dene uno de estos telefonos. La regia de multiplication generalizada que cubre 
k operaciones se formula en el siguiente teorema. 


Si una operation se puede ejecutar en ni formas, y si para cada una de estas se 
puede llevar a cabo una segunda operation en 712 formas, y para cada una de las 
primeras dos se puede realizar una tercera operation en 713 formas, y asf sucesiva- 
mente, entonces la serie de k operaciones se puede realizar en 711712 • • • ru- formas. 


Sam va a armar una computadora por sf mismo. Tiene la option de comprar los 
chips entre dos marcas, un disco duro de cuatro marcas, la memoria de tres marcas 
y un conjunto de accesorios en cinco tiendas locales. i,De cuantas formas diferentes 
puede Sam comprar las partes? 

Como Tii = 2, 712 = 4, 773 = 3 y 714 = 5, hay 

«i x 712 x 713 x ti4 = 2 x 4 x 3 x 5 = 120 
formas diferentes de comprar las partes. 


^Cuantos numeros pares de cuatro dfgitos se pueden formar con los digitos 0, 1, 2 5, 
6 y 9, si cada digito se puede usar solo una vez? 

Como el numero debe ser par, tenemos solo rii = 3 elecciones para la position de las 
unidades. Sin embargo, para un numero de cuatro digitos la position de los millares 
no puede ser 0. Por lo tanto, consideramos la position de las unidades en dos partes: 
0 o diferente de 0. Si la position de las unidades es 0 (es decir, rii = 1), tenemos 712 
= 5 elecciones para la position de los millares, 713 = 4 para la position de las cente- 
nas y 714 = 3 para la position de las decenas. Por lo tanto, formamos un total de 

711712713714 = (1)(5)(4)(3) = 60 

numeros pares de cuatro digitos. Por otro lado, si la position de las unidades no es 
0 (es decir, 71 1 = 2), tenemos 712 = 4 elecciones para la position de los millares, 713 = 4 
para la position de las centenas y 714 = 3 para la position de las decenas. En esta si- 
tuation tenemos un total de 

711712713714 = (2) (4) (4) (3) = 96 

numeros pares de cuatro digitos. 

Puesto que los dos casos anteriores son mutuamente excluyentes entre si, el nume- 
ro total de numeros pares de cuatro digitos se calcula usando 60 + 96 = 156. 
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Con frecuencia nos interesamos en un espacio muestral que contiene como ele- 
mentos a todas las posibles ordenaciones o arreglos de un grupo de objetos. Por 
ejemplo, cuando queremos saber cuantos arreglos diferentes son posibles para sentar 
a seis personas alrededor de una mesa, o cuando nos preguntamos cuantas ordena- 
ciones diferentes son posibles para sacar dos billetes de loterfa de un total de 20. Los 
diferentes arreglos se llaman permutaciones. 


Definicion 2.7: 


Una permutation es un arreglo de todo o parte de un conjunto de objetos. 


Considere las tres letras a, b y c. Las permutaciones posibles son abc , acb , bac , bca , 
cab y cba. De esta forma vemos que hay 6 arreglos distintos. Con el uso del teorema 
2.2 podemos llegar a la respuesta 6 sin realmente listar las diferentes ordenaciones. 
Hay n\ = 3 elecciones para la primera position, despues 712 = 2 para la segunda, lo 
que deja solo 713 = 1 election para la ultima position, lo que da un total de 

nin 2 n 3 = (3)(2)(1) = 6 permutaciones. 

En general, n objetos distintos se pueden arreglar en 

n{n — 1 )(n — 2) • • • (3)(2)(1) formas. 

Representamos este producto mediante el shnbolo n\, que se lee “n factorial”. Tres 
objetos se pueden arreglar en 3! = (3) (2) (1) = 6 maneras. Por definicion, 1! = 1. 
Tambien definimos 0! = 1. 


Teorema 2.3: 


El mimero de permutaciones de n objetos distintos es n\. 


El numero de permutaciones de las cuatro letras a, b, c y d sera 4! = 24. Consi- 
deremos ahora el numero de permutaciones que son posibles al tomar, de las cuatro 
letras, dos a la vez. Estas serfan ab, ac, ad, ba, be, bd, ca, cb, cd, da, db y dc. De nue- 
vo, usando el teorema 2.1, tenemos dos posiciones para llenar con m = 4 elecciones 
para la primera y despues n 2 = 3 elecciones para la segunda, para un total de 

mn 2 = (4) (3) = 12 

permutaciones. En general, n objetos distintos tornados de r a la vez se pueden 
arreglar en 


n(n — l)(n — 2) • • • (n — r + 1) 
formas. Representamos este producto mediante el shnbolo 


Como resultado tenemos el teorema que sigue. 


Teorema 2.4: 


El numero de permutaciones de n objetos distintos tornados de r a la vez es 


P = 

lA r — 


(n — r)! 
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Ejemplo 2.17:1 En un ano se otorgaran tres premios (a la investigation, la ensenanza y el servicio) 
en un grupo de 25 estudiantes de posgrado del departamento de estadi'stica. Si ca- 
da estudiante puede recibir un premio como maximo, ^cuantas selecciones posibles 
habrfa? 

Solucion: Como los premios son distinguibles, se trata de un problema de permutation. El 
numero total de puntos muestrales es 

25 l 25 1 

(2^3)1 = 22! = (25)(24)(23) = 13 - 800 - 


Ejemplo 2.18: 


Solucion: 


Se van a elegir a un presidente y a un tesorero de un club estudiantil compuesto por 
50 personas. ^Cuantas opciones diferentes de funcionarios son posibles si 

a) no hay restricciones; 

b) A participara solo si el es el presidente; 

c) B y C participaran juntos o no lo haran; 

d) D y E no participaran juntos? 

a) El numero total de elecciones de los funcionarios, si no hay restricciones, es 


P _ 50! 
50P2 - 


(50) (49) = 2450. 


b) Como A participant solo si es el presidente, tenemos dos situaciones: i. A se 
elige como presidente, lo cual produce 49 resultados posibles; o ii. los funcio- 
narios se eligen de entre las 49 personas restantes cuyo numero de opciones es 
49 -P 2 = (49) (48) = 2352. Por lo tanto, el numero total de elecciones es 49 + 
2352 = 2401. 

c) El numero de selecciones cuando B y C participan juntos es 2. El numero de 
selecciones cuando ni B ni C se eligen es 48 P 2 = 2256. Por lo tanto, el numero 
total de opciones en esta situation es 2 + 2256 = 2258. 

d) El numero de selecciones cuando D participa como funcionario pero sin E es 
(2) (48) = 96, donde 2 es el numero de posiciones que D puede tomar y 48 es el 
numero selecciones de los otros funcionarios de las personas restantes en el club, 
excepto E. El numero de selecciones cuando E participa como funcionario pero 
sin D tambien es (2) (48) = 96. El numero de selecciones cuando tanto D como 
E no son elegidos es 43^2 = 2256. Por lo tanto, el numero total de opciones es 
(2) (96) + 2256 = 2448. Este problema tambien tiene otra solucion corta: como 
D y E solo pueden participar juntos de dos maneras, la respuesta es 2450 — 2 = 
2448. 


Las permutaciones que ocurren al arreglar objetos en un tirculo se Hainan per- 
mutaciones circulares. Dos permutaciones circulares no se consideran diferentes 
a menos que los objetos correspondientes en los dos arreglos esten precedidos o se- 
guidos por un objeto diferente, conforme avancemos en la direction de las manecillas 
del reloj. Por ejemplo, si cuatro personas juegan bridge , no tenemos una permuta- 
tion nueva si se mueven una position en la direction de las manecillas del reloj. Al 
considerar a una persona en una position fija y arreglar a las otras tres de 3! formas, 
encontramos que hay seis arreglos distintos para el juego de bridge. 
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Teorema 2.5: 


Teorema 2.6: 


Ejemplo 2.19: 


Solucion: 


El numero de permutaciones de n objetos distintos arreglados en un ci'rculo es 
(n - 1)!. 


Hasta aquf consideramos permutaciones de objetos distintos. Es decir, todos los 
objetos fueron por completo diferentes o distinguibles. Evidentemente, si las letras 
bye son ambas iguales a x, entonces las 6 permutaciones de las letras a, b y c se 
convierten en axx, axx , xax, xax, xxa y xxa, de las cuales solo 3 son diferentes. Por 
lo tanto, con 3 letras, en las que 2 son la misma, tenemos 3!/2! = 3 permutaciones 
distintas. Con 4 letras diferentes a, b, c y d tenemos 24 permutaciones distintas. Si 
hacemos a = b= xyc=d=y , podemos listar solo las siguientes permutaciones 
distintas: xxyy, xyxy , yxxy , yyxx , xyyx y yxyx. De esta forma tenemos 4!/(2! 2!) = 6 
permutaciones distintas. 

El numero de permutaciones distintas de n objetos de los que n\ son de una clase, 
ri 2 de una segunda clase, . . . , n& de una A:-esima clase es 

n! 

rn!n 2 ! n &! 


Durante un entrenamiento del equipo de futbol americano de la universidad, el 
coordinador defensivo necesita tener a 10 jugadores parados en una fila. Entre estos 
10 jugadores, hay 1 de primer aho, 2 de segundo ano, 4 de tercer ano y 3 de cuarto 
ano, respectivamente. ^De cuantas formas diferentes se pueden arreglar en una fila, 
si solo se distingue su nivel de clase? 

Usando directamente el teorema 2.6, el numero total de arreglos es 


10 ! 

1! 2! 4! 3! 


12,600. 


J 


Con frecuencia nos interesa el numero de formas de dividir un conjunto de n 
objetos en r subconjuntos denominados celdas. Se consigue una particion si la in- 
terseccion de todo par posible de los r subconjuntos es el conjunto vaefo </>, y si la 
union de todos los subconjuntos da el conjunto original. El orden de los elementos 
dentro de una celda no tiene importancia. Considere el conjunto {a, e, *, o, u}. Las 
particiones posibles en dos celdas en las que la primera celda contenga 4 elementos 
y la segunda 1 elemento son 

{(a, e, i, o), ( )},{(a,i,o, ), (e)}, {(e, i, o, ), (a)}, {(a, e, o, ),(*)}, {(a, e, i, ),(o)}. 

Vemos que hay 5 formas de partir un conjunto de 4 elementos en dos subconjuntos 
o celdas que contengan 4 elementos en la primera celda y 1 en la segunda. 

El numero de particiones para esta ilustracion se denota con la expresion 

t 5 j= — = 5 

L.V 4! 1! 


donde el numero superior representa el numero total de elementos y los numeros 
inferiores representan el numero de elementos que van en cada celda. Establecemos 
esto de forma mas general en el siguiente teorema. 
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Teorema 2.7: 


Ejemplo 2.20:1 
Solucion: 


Teorema 2.8: 


Ejemplo 2.21:1 

Solucion: 


El miinero de formas de partir un conjunto de n objetos en r celdas con n\ elemen- 
tos en la primera celda, n 2 elementos en la segunda, y asf sucesivamente, es 

( n \ n\ 

\ni,n 2 , ■ ■ ■ ,n r J ni!n 2 ! n r \ 
donde n\ + n 2 + ■ ■ ■ + n r = n. 


^En cuantas formas se pueden asignar siete estudiantes de posgrado a una habita- 
cion de hotel triple y a dos dobles, durante su asistencia a una conferencia? 

El miinero total de particiones posibles seri'a 

(3,2,2) = 3 !ir 2 != m 

En muchos problemas nos interesamos en el numero de formas de seleccionar r 
objetos de n sin importar el orden. Tales selecciones se llaman combinaciones. Una 
combinacion es realmente una partition con dos celdas, donde una celda contiene los 
r objetos seleccionados y la otra contiene los ( n — r ) objetos restantes. El numero 
de tales combinaciones, denotado con 



por lo general, se reduce a 



debido a que el numero de elementos en la segunda celda debe ser n — r. 


El numero de combinaciones de n objetos distintos tornados de r a la vez es 

f n\ n\ 

\r J r!(n — r)! 


Un nino le pide a su mama que le lleve cinco cartuchos de Game-Boy™ de su colec- 
cion de 10 juegos de arcada y 5 de deportes. ^Cuantas maneras hay en que su mama 
le llevara 3 juegos de arcada y 2 de deportes, respectivamente? 

El numero de formas de seleccionar 3 cartuchos de 10 es 


10 ! 


3! (10-3)! 


= 120 . 


El numero de formas de seleccionar 2 cartuchos de 5 es 



5! 

2!~3! 


= 10 . 


Utilizando la regia de la multiplicacion del teorema 2.1 con n\ = 120 y n 2 = 10, hay 
(120) (10) = 1200 formas. 




Ejercicios 


47 


Eiemplo 2.22:1 ;Cuantos arreglos diferentes de letras se pueden hacer con las letras de la palabra 
STATISTICS? 

Solucion: Utilizando el mismo argumento de la discusion del teorema 2.8, en este ejemplo 
aplicamos en realidad el teorema 2.7 para obtener 

(3, 3, 2, 1, l) = 3! 3! 2! 1! 1! = 5 °’ 4 °°‘ 

Aquf tenemos 10 letras en total, donde 2 letras (S,T) aparecen tres veces cada una, 
la letra I aparece dos veces, y las letras Ay C aparecen una vez cada una. 


Ej ercicios 

2.21 A los participantes de una convention se les 
ofrecen seis recorridos a sitios de interes cada uno de 
los tres dfas. ^De cuantas maneras se puede acomodar 
una persona para ir a uno de los recorridos planeados 
por la convention? 

2.22 En un estudio medico los pacientes se clasifican 
en 8 formas de acuerdo con su tipo sangumeo: AB + , 
AB~,A+, A~,B+,B-,0~ u O ; y tambien de acuerdo 
con su presion sangumea: baja, normal o alta. Encuen- 
tre el numero de formas en las que se puede clasificar 
a un paciente. 

2.23 Si un experimento consiste en lanzar un dado 
y despues extraer una letra al azar del alfabeto ingles, 
^cuantos puntos habra en el espacio muestral? 

2.24 Los estudiantes de una universidad privada de 
humanidades se clasifican como estudiantes de primer 
ano, de segundo ano, de penultimo ano o de ultimo ano, 
y tambien de acuerdo con su genero (hombres o muje- 
res). Encuentre el numero total de clasificaciones posi- 
bles para los estudiantes de esa universidad. 

2.25 Cierto calzado se recibe en 5 diferentes estilos 
y cada estilo esta disponible en 4 colores distintos. Si 
la tienda desea mostrar pares de estos zapatos que mues- 
tren la totalidad de los diversos estilos y colores, ^cuan- 
tos diferentes pares tendrfa que mostrar? 

2.26 Un estudio en California concluyo que al seguir 
siete sencillas reglas para la salud, la vida de un hom- 
bre se puede prolongar 1 1 anos en promedio y la vida de 
una mujer 7 anos. Estas 7 reglas son: no fumar, ha- 
cer ejercicio, uso moderado del alcohol, dormir siete 
u ocho horas, mantener el peso adecuado, desayunar 
y no ingerir alimentos entre comidas. De cuantas for- 
mas puede una persona adoptar cinco de esas reglas 
a seguir: 


a) iSi la persona actualmente infringe las siete reglas? 

b) ^Si la persona nunca bebe y siempre desayuna? 

2.27 Un urbanista de un nuevo fraccionamiento ofre- 
ce a un futuro comprador de una casa la election de 

4 disenos, 3 diferentes sistemas de calefaccion, un ga- 
raje o cobertizo, y un patio o un porche cubierto. ^De 
cuantos planes diferentes dispone el comprador? 

2.28 Un medicamento contra el asma se puede ad- 
quirir de 5 diferentes laboratories en forma de liquido, 
comprimidos o capsulas, todas en concentration normal 
o alta. ^De cuantas formas diferentes un doctor puede 
recetar la medicina a un paciente que sufre de asma? 

2.29 En un estudio economico de combustibles, cada 
uno de 3 autos de carreras se prueba con 5 marcas 
diferentes de gasolina en 7 lugares de prueba que se 
localizan en diferentes regiones del pais. Si se utilizan 
2 pilotos en el estudio y las pruebas se realizan una vez 
bajo cada uno de los distintos grupos de condiciones, 
^cuantas pruebas se necesitan? 

2.30 ^,De cuantas formas distintas se puede respon- 
der una prueba de falso-verdadero que consta de 9 pre- 
guntas? 

2.31 Si una prueba de option multiple consiste en 

5 preguntas, cada una con 4 respuestas posibles de las 
cuales solo 1 es correcta, 

a) ide cuantas formas diferentes un estudiante puede 
elegir una respuesta a cada pregunta? 

b) ide cuantas maneras un estudiante puede elegir una 
respuesta a cada pregunta y tener incorrectas todas 
las respuestas? 

2.32 a) ^Cuantas permutaciones distintas se pueden 
hacer con las letras de la palabra columna! 

b) ^Cuantas de estas permutaciones comienzan con la 
letra ml 
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2.33 Un testigo de un accidente de transito, en el cual 
huyo el culpable, dice a la polici'a que el mimero de la ma- 
tricula contem'a las letras RLH seguidas de 3 di'gitos, cuyo 
primer mimero es un 5. Si el testigo no puede recordar 
los ultimos 2 di'gitos, pero tiene la certeza de que los 3 
eran diferentes, encuentre el mimero maximo de ma- 
trfculas de automovil que la polici'a tiene que verificar. 

2.34 a) ^,De cuantas maneras se pueden formar 6 per- 
sonas para abordar un autobus? 

b) Si 3 personas especi'ficas, de las 6, insisten en estar 
una despues de la otra, ^cuantas maneras son posi- 
bles? 

c) Si 2 personas especi'ficas, de las 6, rehiisan seguir una 
a la otra, ^cuantas maneras son posibles? 

2.35 Un contratista desea construir 9 casas, cada una 
con diferente diseno. ^De cuantas formas puede colocar 
estas casas en una calle si hay 6 lotes en un lado de la 
calle y 3 en el lado opuesto? 

2.36 a) ^Cuantos niimeros de tres di'gitos se pueden 
formar con los di'gitos 0, 1, 2, 3, 4, 5 y 6, si cada 
dfgito se puede usar solo una vez? 

b) ^Cuantos de estos mimeros son impares? 

c) ^Cuantos son mayores que 330? 

2.37 ^De cuantas maneras se pueden sentar 4 ninos y 
5 ninas en una fila, si unos y otras se deben alternar? 

2.38 Cuatro matrimonios compran 8 lugares en la 
misma fila para un concierto. ^.De cuantas maneras di- 
ferentes se pueden sentar 

a) sin restricciones? 

b) si cada pareja se sienta junta? 

c) si todos los hombres se sientan juntos a la derecha 
de todas las mujeres? 

2.39 En un concurso regional de ortograffa, los 8 fi- 
nalistas son 3 ninos y 5 nirias. Encuentre el mimero 
de puntos muestrales en el espacio muestral S para el 
mimero de ordenamientos posibles al final del concurso 
para 

a) los 8 finalistas; 

b) las primeras 3 posiciones. 


2.40 ^De cuantas formas de pueden llenar las cinco 
posiciones iniciales en un equipo de baloncesto con 8 ju- 
gadores que pueden jugar cualquiera de las posiciones? 

2.41 Encuentre el mimero de formas en que 6 pro- 
fesores se pueden asignar a 4 secciones de un curso 
introductorio de psicologfa, si ningiin profesor se asigna 
a mas de una section. 

2.42 Se sacan 3 billetes de loterfa para el primer, 
segundo y tercer premios de un grupo de 40 boletos. 
Encuentre el mimero de puntos muestrales en S para 
dar los 3 premios, si cada concursante solo tiene un 
billete. 

2.43 ^,De cuantas maneras se pueden plantar 5 arbo- 
les diferentes en un cfrculo? 

2.44 ^De cuantas formas se puede acomodar en cfrcu- 
lo una caravana de ocho carretas que proviene de Ari- 
zona? 

2.45 ^Cuantas permutaciones distintas se pueden ha- 
cer con las letras de la palabra infinitol 

2.46 ^De cuantas maneras se pueden colocar 3 robles, 
4 pinos y 2 arces a lo largo de la lfnea divisoria de una 
propiedad, si no se distingue entre arboles del mismo 
tipo? 

2.47 Una universidad participa en 12 juegos de fiit- 
bol durante una temporada. ^De cuantas formas puede 
el equipo terminar la temporada con 7 ganados, 3 per- 
didos y 2 empates? 

2.48 Nueve personas se dirigen a esquiar en tres au- 
tomoviles que llevan 2, 4 y 5 pasajeros, respectivamen- 
te. ^De cuantas maneras es posible transportar a las 
9 personas hasta el albergue en todos los autos? 

2.49 ^Cuantas formas hay para seleccionar a 3 can- 
didates de 8 recien graduados igualmente calificados 
para las vacantes de una empresa contable? 

2.50 ^Cuantas formas hay en que dos estudiantes no 
tengan la misma fecha de cumpleanos en un grupo de 
60? 


2.4 Probabilidad de un evento 

Quiza fue la insatiable sed del juego lo que condujo al desarrollo temprano de la teo- 
rfa de la probabilidad. En un esfuerzo por aumentar sus ganancias, algunos pidieron 
a los matematicos que les proporcionaran las estrategias optimas para los diversos 
juegos de azar. Algunos de los matematicos que brindaron tales estrategias fueron 
Pascal, Leibniz, Fermat y James Bernoulli. Como resultado de este desarrollo initial 
de la teon'a de la probabilidad, la inferencia estadfstica, con todas sus predicciones 
y generalizaciones, se extiende mas alia de los juegos de azar para abarcar muchos 
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otros campos asociados con los eventos aleatorios, como la poli'tica, los negocios, la 
prediction del clima y la investigation cientifica. Para que estas predicciones y ge- 
neralizaciones sean razonablemente precisas, resulta esencial una comprension de la 
teoria basica de la probabilidad. 

^Que queremos decir cuando hacemos afirmaciones como “Juan probablemente 
ganara el torneo de tenis”, o “tengo una oportunidad de cincuenta por ciento de 
obtener un numero par cuando se lanza un dado” , o “no tengo posibilidad de ganar 
en la loterfa esta noche” , o “la mayoria de nuestros graduados probablemente estara 
casados dentro de tres anos”? En cada caso expresamos un resultado del cual no 
estamos seguros; pero debido a la information del pasado o a partir de una com- 
prension de la estructura del experimento, tenemos algiin grado de confianza en la 
validez de la afirmacion. 

En el resto de este capi'tulo consideraremos solo aquellos experimentos para los 
cuales el espacio muestral contiene un numero finito de elementos. La probabilidad 
de la ocurrencia de un evento que resulta de tal experimento estadistico se evalua 
utilizando un conjunto de numeros reales denominados pesos o probabilidades, 
que van de 0 a 1. Para todo punto en el espacio muestral asignamos una probabi- 
lidad tal que la suma de todas las probabilidades es 1. Si tenemos razon para creer 
que es bastante probable que ocurra cierto punto muestral cuando se lleva a cabo el 
experimento, la probabilidad que se le asigne deberia ser cercana a 1. Por otro lado, 
una probabilidad cercana a cero se asigna a un punto muestral que no es probable 
que ocurra. En muchos experimentos, como lanzar una moneda o un dado, todos los 
puntos muestrales tienen la misma oportunidad de ocurrencia y se les asignan pro- 
babilidades iguales. Para puntos fuera del espacio muestral, es decir, para eventos 
simples que no es posible que ocurran, asignamos una probabilidad de cero. 

Para encontrar la probabilidad de un evento A, sumamos todas las probabilida- 
des que se asignan a los puntos muestrales en A. Esta suma se denomina probabi- 
lidad de A y se denota con P(A). 


Definition 2.8: 


La probabilidad de un evento A es la suma de los pesos de todos los puntos mues- 
trales en A. Por lo tanto, 

0 < P(A) < 1, P(</>) = 0, y P(S) = 1. 

Ademas, si A±, A 2 , A 3 , . . . es una serie de eventos mutuamente excluyentes, entonces 

P\{Ai U A 2 U A 3 U • • • ) = P(Ai) + P(A 2 ) + P(A 3 ) + • • • . 


Ejemplo 2.23:1 
Solucion: 


Se lanza dos veces una moneda. ^Cual es la probabilidad de que ocurra al menos una 
car a? 

El espacio muestral para este experimento es 


S = {HH, HT , TH, TT}. 


Si la moneda esta balanceada, cada uno de estos resultados tendra la misma proba- 
bilidad de ocurrencia. Por lo tanto, asignamos una probabilidad de to a cada uno de 
los puntos muestrales. Entonces, 4w = 1 o w = 1/4. Si A representa el evento de que 
ocurra al menos una cara, entonces 

A = {HH, HT, TH} y P(A) = ± \ ± = | . 


J 
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Ejemplo 2.24:1 Se carga un dado de forma que sea dos veces mas probable que saiga un numero par 
que uno non. Si E es el evento de que ocurra un numero menor que 4 en un solo 
lanzamiento del dado, encuentre P(E). 

Solucion: El espacio muestral es S = {1, 2, 3, 4, 5, 6}. Asignamos una probabilidad de w a 
cada numero non y una probabilidad de 2w a cada numero par. Como la suma de 
las probabilidades debe ser 1, tenemos 9w = 1 o ro = 1/9. Por ello se asignan pro- 
babilidades de 1/9 y 2/9 a cada numero non y par, respectivamente. Por lo tanto, 

£ = {1.2.3 )y P( E ),l + ? + I = l. 


Ejemplo 2.25:1 En el ejemplo 2.24, sea A el evento de que saiga un numero par y sea B el evento de 
que saiga un numero divisible entre 3. Encuentre P(A U B) y P(A fl B). 

Solucion: Para los eventos A = {2, 4, 6} y B = {3, 6}, tenemos 

4UB = {2,3,4, 6}ydnB = {6}. 

A1 asignar una probabilidad de 1/9 a cada numero non y de 2/9 a cada numero par, 
tenemos 


p.(^UB) = | + i + | + | = | y P(AnB) = 2 -. j 

Si el espacio muestral para un experimento contiene N elementos, todos los cua- 
les tienen la misma probabilidad de ocurrencia, asignamos una probabilidad igual a 
1 / N a cada uno de los N puntos. La probabilidad de cualquier evento A que conten- 
ga n de estos N puntos muestrales es entonces la razon del numero de elementos en 
A al numero de elementos en S. 


Teorema 2.9: 


Si un experimento puede tener como resultado cualquiera de N diferentes resulta- 
dos igualmente probables, y si exactamente n de estos resultados corresponden al 
evento A, entonces la probabilidad del evento A es 


P(A) 


n 

N' 


Ejemplo 2.26:1 Una clase de estadistica para ingenieros consta de 25 estudiantes de ingenierfa 
industrial, 10 de mecanica, 10 de electrica y 8 de civil. Si el profesor elige a una 
persona al azar para que conteste una pregunta, encuentre la probabilidad de que 
el estudiante elegido sea a) un estudiante de ingenierfa industrial, b) uno que de 
ingenierfa civil o electrica. 

Solucion: Se denotan con /, M, E y C las especialidades de los estudiantes en ingenierfas in- 
dustrial, mecanica, electrica y civil, respectivamente. El numero total de estudiantes 
en la clase es 53, todos los cuales tienen la misma probabilidad de ser selecciona- 
dos. 

a) Como 25 de los 53 estudiantes tienen la especialidad en ingenierfa industrial, la 
probabilidad del evento /, elegir al azar a alguien de ingenierfa industrial, es 


P(I) 


25 

53 
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b) Como 18 de los 53 estudiantes son de las especialidades de ingenieri'a civil o 
electrica, se sigue que 


P(C U E) 


18 

53' 


J 


Ejemplo 2.27:1 En una mano de poquer que consiste en 5 cartas, encuentre la probabilidad de tener 
2 ases y 3 jacks. 

Solucion: El numero de formas de tener 2 ases de 4 es 

4\ _ 4! 

2 ) ~ 2T2! ~ 6 ’ 

y el numero de formas de tener 3 jacks de 4 es 

4 U^=4. 

3 ) 3! 1! 

Mediante la regia de multiplication del teorema 2.1, hay n = (6) (4) = 24 manos 
con 2 ases y 3 jacks. El numero total de manos de poquer de 5 cartas, las cuales son 
igualmente probables, es 

/52\ 52! 

= — = 2,598, 96 °. 

Por lo tanto, la probabilidad del evento C de obtener 2 ases y 3 jacks en una mano 
de poquer de 5 cartas es 


P(C) 


24 

2,598,960 


= 0.9 x 


10 " 5 . 
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Si los resultados de un experimento no tienen igual probabilidad de ocurrencia, 
las probabilidades se deben asignar sobre la base de un conocimiento previo o de 
evidencia experimental. Por ejemplo, si una moneda no esta balanceada, podemos 
estimar las probabilidades de caras y cruces al lanzar la moneda un numero grande 
de veces, y registrar los resultados. De acuerdo con la definition de frecuencia rela- 
tiva de la probabilidad, las probabilidades verdaderas serfan las fracciones de caras 
y cruces que ocurren a largo plazo. 

Para encontrar un valor numerico que represente de forma adecuada la proba- 
bilidad de ganar en el tenis, debemos depender de nuestro desempeho previo en el 
juego, asf como tambien del de nuestro oponente y, hasta cierto punto, en nuestra 
creencia de ser capaces de ganar. De manera similar, para encontrar la probabili- 
dad de que un caballo gane una carrera, debemos llegar a una probabilidad que se 
base en las marcas anteriores de todos los caballos que participan en la carrera, asf 
como de las marcas de los jockeys que montan los caballos. La intuition, sin duda, 
tambien juega una parte en la determination del monto de la apuesta que estemos 
dispuestos a arriesgar. El uso de la intuition, las creencias personales y otra infor- 
mation indirecta para llegar a probabilidades se denomina la definition subjetiva 
de la probabilidad. 

En la mayorfa de las aplicaciones de probabilidad de este libro la interpretation de 
frecuencia relativa de probabilidad es la que opera. Su fundamento es el experimen- 
to estadfstico en vez de la subjetividad. Se le considera mas bien como frecuencia 
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relativa limitante. Como resultado, muchas aplicaciones de probabilidad en cien- 
cia e ingenieri'a se deben basar en experimentos que se puedan repetir. Nociones 
menos objetivas de probabilidad se encuentran cuando asignamos probabilidades 
que se basan en informacion y opiniones previas. Como ejemplo, “hay una buena 
oportunidad de que los Leones pierdan el Super Bowl”. Cuando las opiniones y la 
informacion previa difieren de un individuo a otro, la probabilidad subjetiva se vuel- 
ve el recurso pertinente. 


2.5 Reglas aditivas 

A menudo resulta mas sencillo calcular la probabilidad de algun evento a partir del 
conocimiento de las probabilidades de otros eventos. Esto puede ser cierto si el even- 
to en cuestion se puede representar como la union de otros dos eventos o como el 
complemento de algun evento. A continuacion se presentan varias leyes importantes 
que con frecuencia simplifican el calculo de las probabilidades. La primera, que se 
denomina regia aditiva, se aplica a uniones de eventos. 


Teorema 2.10: 


Si A y B son dos eventos, entonces 

P{A U B) = P(A) + P{B ) - P{A C B). 


Prueba: Considere el diagrama de Venn de la figura 2.7. P(A U B ) es la suma de las proba- 
bilidades de los puntos muestrales en A U B. Asf, P(A) + P{B) es la suma de todas 
las probabilidades en A mas la suma de todas las probabilidades en B. Por lo tanto, 
sumamos dos veces las probabilidades en (A n B). Como estas probabilidades se suman 
a P(A (~l B), debemos restar esta probabilidad una vez para obtener la suma de las 
probabilidades en A U B. 



Figura 2.7: Regia aditiva de probabilidad. 


Corolario 2.1: 


Si A y B son mutuamente excluyentes, entonces 

P{A U B) = P(A) + P(B). 


El corolario 2.1 es un resultado inmediato del teorema 2.10, pues si A y B son 
mutuamente excluyentes, An B = 0 y entonces P(A ft B) = P((j>) = 0. En general, 
escribimos: 
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Corolario 2.2: 


Corolario 2.3: 


Teorema 2.11: 


Ejemplo 2.28:1 

Solucion: 


Ejemplo 2.29:1 
Solucion: 


Si A\, A 2 , . . . , A n son mutuamente excluyentes, entonces 

P(Ai U A 2 U U A n ) = P(Ai) + P(A2) + + P(A n ). 


Una coleccion de eventos {Ai, A 2 , . . . A n } de un espacio muestral S se denomina 
una particion de S si Ai, A 2 , . . . , A n son mutuamente excluyentes y A\ U A 2 U • • • U 
A„ = S. Por lo tanto, tenemos 


Si Ai, A 2 , . . . , A n es una particion de un espacio muestral S, entonces 

P(Ai U A 2 U U A n ) = P(Ai) + P(A2) + + P(A n ) = P(S) = 1. 


Como se esperari'a, el teorema 2.10 se extiende de forma analoga. 


Para tres eventos A, B y C, 

P(A UBUC) = P{A) + P(B) + P{C ) 

- P{A ob)- P{A n C) - p{b n c) + P{A nBnc). 


AI final del semestre, Juan se va a gradual' en la facultad de ingenierfa industrial 
en una universidad. Despues de tener entrevistas en dos compamas donde quiere 
trabajar, el evalua la probabilidad que tiene de lograr una oferta de empleo en la 
companfa A como 0.8, y la probabilidad de obtenerla de la compama B como 0.6. 
Si, por otro lado, considera que la probabilidad de que reciba ofertas de ambas com- 
pamas es 0.5, ^cual es la probabilidad de que obtendra al menos una oferta de esas 
dos compamas? 

Con la regia aditiva tenemos 

P{A U B) = P{A) + P{B) - P{A nB) = 0.8 + 0.6 - 0.5 = 0.9. 


^Cual es la probabilidad de obtener un total de 7 u 11 cuando se lanza un par de 
dados? 

Sea A el evento de que ocurra 7 y B el evento de que saiga 11. Entonces, un total 
de 7 ocurre para 6 de los 36 puntos muestrales y un total de 11 ocurre solo para 2. 
Como todos los puntos muestrales son igualmente probables, tenemos P(A) = 1/6 
y P(B) = 1/18. Los eventos Ay B son mutuamente excluyentes, pues un total de 
7 y 11 no pueden ocurrir en el mismo lanzamiento. Por lo tanto, 

P(A U B) = P(A) + P(B) = I + 1 = | 


Este resultado tambien se podrfa obtener al contar el numero total de puntos para 
el evento A U B, es decir 8, y escribir 


P(AUB) = ^ 


8 

36 


2 

9 


J 
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El teorema 2.10 y sus tres corolarios deberi'an ayudar al lector a lograr una 
mejor comprension de la probabilidad y de su interpretacion. Los corolarios 1 y 
2 sugieren el resultado muy intuitivo que trata con la probabilidad de ocurrencia 
de, al menos, uno de entre un numero de eventos, sin que puedan ocurrir dos de 
ellos simultaneamente. La probabilidad de que al menos ocurra uno es la suma 
de las probabilidades de ocurrencia de los eventos individuales. El tercer corolario 
simplemente establece que el valor mayor de una probabilidad (uno) se asigna a 
todo el espacio muestral S. 


Ejemplo 2.30:1 Si las probabilidades de que un individuo que compra un automovil nuevo elija color 
verde, bianco, rojo o azul son, respectivamente, 0.09, 0.15, 0.21 y 0.23, ^cual es la 
probabilidad de que un comprador dado adquiera un automovil nuevo que tenga uno 
de esos colores? 

Solucion: Sean G, W, R y B los eventos de que un comprador seleccione, respectivamente, un 
automovil verde, bianco, rojo o azul. Como estos cuatro eventos son mutuamente 
excluyentes, la probabilidad es 

P{G UWURUB) = P(G) + P(W) + P(R) + P{B) 

= 0.09 + 0.15 + 0.21 + 0.23 = 0.68. 

A menudo es mas dificil calcular la probabilidad de que ocurra un evento que 
calcular la probabilidad de que el evento no ocurra. Si este es el caso para algun 
evento A , simplemente encontramos primero P(A') y, despues, con el teorema 2.10, 
encontramos P(A) por sustraccion. 

Teorema 2.12: 


Prueba: 

1 = p(S) = P(A U A') = P(A) + P{A'). 


Si A y A' son eventos complementarios, entonces 

P{A) + P(A') = 1. 

Como A U A 1 = S y los conjuntos Ay A 1 son disjuntos, entonces 


Ejemplo 2.31:1 Si las probabilidades de que un mecanico automotriz de servicio a 3, 4, 5, 6, 7, 8 o 
mas vehfculos en un dfa de trabajo dado son 0.12, 0.19, 0.28, 0.24, 0.10 y 0.07, res- 
pectivamente, ^cual es la probabilidad de que de servicio al menos a 5 vehfculos el 
siguiente dia de trabajo? 

Solucion: Sea E el evento de que al menos 5 automoviles reciban servicio. Asi, P(E) = 1 — 
P(E'), donde E' es el evento de que menos de 5 automoviles reciban servicio. 
Como 


P(E') = 0.12 + 0.19 = 0.31, 
del teorema 2.12 se sigue que 

P{E) = 1 - 0.31 = 0.69. 


Ejemplo 2.32:1 Suponga que las especificaciones del fabricante para la longitud del cable de cierto 
tipo de computadora son 2000 ± 10 milimetros. En esta industria, se sabe que el 
cable pequeno tiene la misma probabilidad de salir defectuoso (no cumplir con las 
especificaciones) que el cable grande. Es decir, la probabilidad de que aleatoriamente 
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se produzca un cable con una longitud mayor que 2010 milfmetros es igual a la pro- 
babilidad de producirlo con una longitud menor que 1990 milfmetros. Se sabe que la 
probabilidad de que el procedimiento de production cumpla con las especificaciones 
es de 0.99. 

a) ^Cual es la probabilidad de que un cable elegido aleatoriamente sea muy largo? 

b) ^Cual es la probabilidad de que un cable elegido aleatoriamente sea mayor que 
1990 milfmetros? 

Solucion: Sea B el evento de que un cable cumpla con las especificaciones. Sean S y L los even- 
tos de que el cable sea muy pequeno o muy grande, respectivamente. Entonces, 

a ) P(M) = 0.99 y P(S) = P{L) = Mp = 0.005. 

b) Si se denota con X la longitud de un cable seleccionado aleatoriamente, tenemos 

P(1990 < X < 2010) = P(M) = 0.99. 

Como P(X > 2010) = P(L) = 0.005, entonces 

P(X > 1990) = P(M) + P{L) = 0.995. 

Lo cual tambien se resuelve utilizando el teorema 2.12: 

P(X > 1990) + P(X < 1990) = 1. 

Asf, P{X > 1990) = 1 - P(S) = 1 - 0.005 = 0.995. 


Ej ercicios 

2.51 Encuentre los errores en cada una de las siguien- 

tes aseveraciones: 

a) Las probabilidades de que un vendedor de automo- 
viles venda 0, 1, 2 o 3 unidades en un dfa dado de 
febrero son 0.19, 0.38, 0.29 y 0.15, respectivamente. 

b) La probabilidad de que llueva manana es 0.40 y la 
probabilidad de que no llueva es 0.52. 

c) Las probabilidades de que una impresora cometa 0, 
1, 2, 3 o 4 o mas errores al imprimir un documen- 
to son 0.19, 0.34, —0.25, 0.43 y 0.29, respectiva- 
mente. 

d) Al sacar una carta de una baraja en un solo intento 
la probabilidad de seleccionar corazones es 1/4, la 
probabilidad de seleccionar una carta negra es 1/2, 
y la probabilidad de seleccionar una carta negra de 
corazones es 1/8. 

2.52 Suponga que todos los elementos de S en el ejer- 

cicio 2.8 de la pagina 38 tienen la misma probabilidad 

de ocurrencia y encuentre 

a) la probabilidad del evento A; 

b) la probabilidad del evento C; 

c) la probabilidad del evento AflC. 


2.53 Una caja contiene 500 sobres, de los cuales 75 
contienen $100 en efectivo, 150 contienen $25 y 275 con- 
tienen $10. Se puede comprar un sobre en $25. ^.Cual 
es el espacio muestral para las diferentes cantidades de 
dinero? Asigne probabilidades a los puntos muestrales 
y despues encuentre la probabilidad de que el primer 
sobre que se compre contenga menos de $100. 

2.54 Suponga que en un grupo de ultimo ano de fa- 
cultad de 500 estudiantes se encuentra que 210 fuman, 
258 consumen bebidas alcoholicas, 216 comen entre co- 
midas, 122 fuman y consumen bebidas alcoholicas, 83 
comen entre comidas y consumen bebidas alcoholicas, 
97 fuman y comen entre comidas, y 52 tienen esos tres 
habitos nocivos para la salud. Si se selecciona al azar a 
un miembro de este grupo, encuentre la probabilidad 
de que el estudiante 

a) fume pero no consuma bebidas alcoholicas; 

b) coma entre comidas y consuma bebidas alcoholicas 
pero no fume; 

c) ni fume ni coma entre comidas. 

2.55 La probabilidad de que una industria esta- 
dounidense se ubique en Shanghai, China, es 0.7, la 
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probabilidad de que se ubique en Beijin, China, es 0.4 
y la probabilidad de que se ubique en Shanghai o Beijin 
o en ambas es 0.8. ^Cual es la probabilidad de que la 
industria se ubique 

o) en ambas ciudades? 

b) en ninguna de esas ciudades? 

2.56 De experiencias pasadas un agente bursatil con- 
sidera que con las condiciones economicas actuales un 
cliente invertira en bonos libres de impuestos con una 
probabilidad de 0.6, que invertira en fondos mutua- 
listas con una probabilidad de 0.3 y que invertira en 
ambos con una probabilidad de 0.15. Ahora, encuentre 
la probabilidad de que un cliente invierta 

o) en bonos libres de impuestos o en fondos mutualistas; 
b) en ninguno de esos instrumentos. 

2.57 Si se elige al azar una letra del alfabeto ingles, 
encuentre la probabilidad de que la letra 

a) sea una vocal excepto y\ 

b) este listada en algun lugar antes de la letra j; 

c ) este listada en algun lugar despues de la letra g. 

2.58 Un fabricante de automoviles esta preocupado 
por el posible retiro de su sedan de cuatro puertas con 
mayor venta. Si hubiera un retiro, existe una probabi- 
lidad de 0.25 de que haya un defecto en el sistema de 
frenos, de 0.18 en la transmision, de 0.17 en el sistema 
de combustible y de 0.40 en alguna otra area. 

a) ^Cual es la probabilidad de que el defecto este en los 
frenos o en el sistema de combustible, si la probabi- 
lidad de defectos simultaneos en ambos sistemas es 
0.15? 

b) ^Cual es la probabilidad de que no haya defecto en 
los frenos o en el sistema de combustible? 

2.59 Si cada articulo codificado en un catalogo em- 
pieza con 3 letras distintas seguidas por 4 dfgitos dis- 
tintos de cero, encuentre la probabilidad de seleccionar 
aleatoriamente uno de estos artfculos codificados que 
tenga como primera letra una vocal y el ultimo digito 
sea par. 

2.60 Se lanza un par de dados. Encuentre la proba- 
bilidad de obtener 

o) un total de 8; 

b) a lo mas un total de 5. 

2.61 Se sacan dos cartas sucesivamente de una bara- 
ja sin remplazo. ^Cual es la probabilidad de que ambas 
cartas sean mayores que 2 y menores que 8? 

2.62 Si se toman 3 libros al azar de un librero que 
contiene 5 novelas, 3 libros de poemas y 1 diccionario, 
^cual es la probabilidad de que 

o) se seleccione el diccionario? 

b) se seleccionen 2 novelas y 1 libro de poemas? 


2.63 En una mano de poquer que consiste en 5 car- 
tas, encuentre la probabilidad de tener 

a) 3 ases; 

b) 4 cartas de corazones y 1 de treboles. 

2.64 En un juego de Yahtzee, donde se lanzan 5 da- 
dos de forma simultanea, encuentre la probabilidad de 
obtener 4 del mismo tipo. 

2.65 En una clase de 100 estudiantes graduados de 
preparatoria, 54 estudiaron matematicas; 69, historia, 
y 35 cursaron matematicas e historia. Si se selecciona 
al azar uno de estos estudiantes, encuentre la probabi- 
lidad de que 

a) el estudiante haya cursado matematicas o historia; 

b) el estudiante no haya llevado ninguna de estas ma- 
terias; 

c) el estudiante haya cursado historia pero no matema- 
ticas. 

2.66 La empresa Dorn’s Pizza utiliza pruebas de 
sabor y el analisis estadistico de los datos antes de co- 
mercializar cualquier producto nuevo. Considere un 
estudio que incluye tres tipos de pastas (delgada, del- 
gada con ajo y oregano, y delgada con trozos de que- 
so). Dom’s tambien estudia tres salsas (estandar, una 
nueva salsa con mas ajo y una nueva salsa con alba- 
haca fresca). 

a) ^Cuantas combinaciones de pasta y salsa se inclu- 
yen? 

b) ^Cual es la probabilidad de que un juez tenga una 
pasta delgada sencilla con salsa estandar en su pri- 
mera prueba de sabor? 

2.67 De acuerdo con Consumer Digest (julio/agosto 
de 1996), la ubicacion probable de las PC en una casa 
son: 


Dormitorio de adultos: 

0.03 

Dormitorio de ninos: 

0.15 

Otro dormitorio: 

0.14 

Oficina o estudio: 

0.40 

Otra habitation 

0.28 

la probabilidad de que 

una pc 


dormitorio? 

b) ^Cual es la probabilidad de que no este en un dor- 
mitorio? 

c) Suponga que se selecciona una familia al azar entre 
las familias con una pc; £en que habitation esperaria 
encontrar la pc? 

2.68 El interes se enfoca en la vida de un componente 
electronico. Suponga que se sabe que la probabilidad 
de que el componente funcione mas de 6000 horas es 
0.42. Suponga, ademas, que la probabilidad de que el 
componente no dure mas de 4000 horas es 0.04. 
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a) ^Cual es la probabilidad de que la vida del compo- 
nente sea menor o igual a 6000 boras? 

b) ^Cual es la probabilidad de que la vida sea mayor 
que 4000 boras? 

2.69 Considere la situation del ejercicio 2.68. Sea A 
el evento de que el componente falle en una prueba 
espetifica y B el evento de que el componente se defor- 
me pero en realidad no falle. El evento A ocurre con 
una probabilidad de 0.20 y el evento B ocurre con una 
probabilidad de 0.35. 

a) ^Cual es la probabilidad de que el componente no 
falle en la prueba? 

b) ^Cual es la probabilidad de que el componente fun- 
cione perfectamente bien (es decir, que ni se defor- 
me ni que falle en la prueba)? 

c) ^Cual es la probabilidad de que el componente falle 
o se deforme en la prueba? 

2.70 En las fabricas a los trabajadores constantemen- 
te se les motiva para que practiquen la tolerancia cero 
para prevenir los accidentes en el lugar de trabajo. Los 
accidentes pueden ocurrir porque el ambiente o las con- 
diciones laborales son inseguros en sf mismos. Por otro 
lado, los accidentes pueden ocurrir por negligencia o 
simplemente por fallas humanas. Ademas, los horarios 
de trabajo de 7:00 a.m. a 3:00 p.m. (turno matutino), de 
3:00 p.m. a 11:00 p.m. (turno vespertino) y de 11:00 p.m. 
a 7:00 a.m. (turno nocturno) pueden ser un factor. El 
ano pasado ocurrieron 300 accidentes. Los porcentajes 
de los accidentes por la combination de condiciones son 
como sigue: 

Condiciones Fallas 


Turno 

inseguras 

humanas 

Matutino 

5% 

32% 

Vespertino 

6% 

25% 

Nocturno 

2% 

30% 


Si se elige aleatoriamente un reporte de accidente de 

entre los 300 reportes, 

a) ^Cual es la probabilidad de que el accidente haya 
ocurrido en el turno nocturno? 

b) ^Cual es la probabilidad de que el accidente haya 
ocurrido debido a una falla humana? 

c) ^Cual es la probabilidad de que el accidente haya 
ocurrido debido a las condiciones inseguras? 

d) ^Cual es la probabilidad de que el accidente haya 
ocurrido durante los turnos vespertino o nocturno? 

2.71 Considere la situation del ejemplo 2.31 de la pa- 

gina 54. 

a) ^Cual es la probabilidad de que no mas de 4 auto- 
moviles recibiran servicio del mecanico? 

b) ^Cual es la probabilidad de que el mecanico dara 
servicio a menos de 8 automoviles? 

c) ^Cual es la probabilidad de que el mecanico dara 
servicio a 3 o 4 automoviles? 


2.72 El interes se enfoca en la naturaleza de un horno 
que se compra en una tienda por departamentos especf- 
fica. Puede ser de gas o electrico. Considere la decision 
tomada por seis clientes distintos. 

a) Suponga que la probabilidad de que, a lo mas, dos 
de esos individuos compren un horno electrico es 
0.40. ^Cual sera la probabilidad de que al menos tres 
compren un horno electrico? 

b) Suponga que se sabe que la probabilidad de que los 
seis compren el horno electrico es 0.007, mientras 
que 0.104 es la probabilidad de que los seis compren 
el horno de gas. ^.Cual es la probabilidad de que al 
menos se compre un horno de cada tipo? 

2.73 En muchas industrias es comun que se utilicen 
maquinas para llenar los envases de un producto. Esto 
ocurre tanto en la industria alimentaria como en otras 
areas cuyos productos son de uso domestico, como los 
detergentes. Dichas maquinas no son perfectas y, de 
hecho, podrfan A cumplir las especificaciones de lle- 
nado, B quedar por debajo del llenado establecido y C 
llenar de mas. Por lo general, se busca evitar la practi- 
ca de llenado insuficiente. Sea P(B) = 0.001, mientras 
que P(A) = 0.990. 

a) Determine P{C). 

b) ^Cual es la probabilidad de que la maquina no de lle- 
nado insuficiente? 

c) ^Cual es la probabilidad de que la maquina llene de 
mas o de menos? 

2.74 Considere la situation del ejercicio 2.73. Supon- 
ga que se producen 50,000 bolsas de detergente por se- 
mana y tambien que las bolsas con llenado insuficiente 
se “devuelven” con la petition de rembolsar al cliente 
el precio de compra. Suponga que se sabe que el “cos- 
to” de production es de $4.00 por bolsa, en tanto que 
el precio de compra es de $4.50 por bolsa. 

a) ^,Cual es la utilidad semanal cuando no se tienen 
bolsas defectuosas? 

b) ^Cual es la perdida en utilidades esperada debido al 
llenado insuficiente? 

2.75 Como sugeriria la situation del ejercicio 2.73, a 
menudo los procedimientos estadfsticos se utilizan para 
control de calidad (es decir, control de calidad indus- 
trial). A veces, el peso de un producto es una variable 
importante que hay que controlar. Se dan especifica- 
ciones de peso para ciertos productos empacados, y si 
un paquete esta muy ligero o muy pesado se rechaza. 
Los datos historicos sugieren que 0.95 es la probabili- 
dad de que el producto cumpla con las especificacio- 
nes de peso; mientras que 0.002 es la probabilidad de 
que el producto este muy ligero. Por cada uno de los 
productos empacados el fabricante invierte $20.00 en 
production y el precio de compra para el consumidor 
son $25.00. 

a) ^Cual es la probabilidad de que un paquete elegido 
aleatoriamente de la lfnea de production este muy 
pesado? 
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b) Por cada 10,000 paquetes que se venden, que utili- 
dad recibira el fabricante si todos los paquetes cum- 
plen con las especificaciones de peso? 

c) Considerando que los paquetes “defectuosos” se re- 
chazan y pierden todo su valor, ^,en cuanto se reduce 


la utilidad por cada 10,000 paquetes debido a que no 
cumplen con las especificaciones? 

2.76 Demuestre que 

P(A! n B') = 1 + P(A n B) - P(A) - P(B). 


2.6 Probabilidad condicional 

La probabilidad de que un evento B ocurra cuando se sabe que ya ocurrio algun 
evento A se llama probabilidad condicional y se denota con P(B\A). El smibolo 
P(B | A), por lo general, se lee “la probabilidad de que ocurra B dado que ocurrio A” 
o simplemente “la probabilidad de B , dado A ” . 

Considere el evento B de obtener un cuadrado perfecto cuando se lanza un dado. 
El dado se construye de modo que los nrimeros pares tengan el doble de probabilidad 
de ocurrencia que los nrimeros nones. Con base en el espacio muestral S = {1, 2, 3, 
4, 5, 6}, con probabilidades asignadas de 1/9 y 2/9, respectivamente, a los nrimeros 
impares y a los pares, la probabilidad de que ocurra B es 1/3. Suponga ahora que 
se sabe que el lanzamiento del dado tiene como resultado un mimero mayor que 3. 
Tenemos ahora un espacio muestral reducido A = {4, 5, 6}, que es un subconjunto 
de S. Para encontrar la probabilidad de que ocurra B , en relacion con el espacio A, 
debemos asignar primero nuevas probabilidades a los elementos de A proportionates 
a sus probabilidades originates de modo que su suma sea 1. A1 asignar una probabi- 
lidad de w al mimero non en A y una probabilidad de 2 w a los dos nrimeros pares, 
tenemos 5 w = 1 o w = 1/5. En relacion con el espacio A, encontramos que B con- 
tiene solo el elemento 4. Si denotamos este evento con el smibolo B\A, escribimos 
B | A = (4), y de aquf 

P{B\A) = 


Este ejemplo ilustra que los eventos pueden tener probabilidades diferentes cuando 
se consideran en relacion con diferentes espacios muestrales. 

Tambien podemos escribir 


P(B\A) = | 


2/9 

V9 


P(A n B) 
P(A) 


donde P(A fl B) y P(A) se encuentran a partir del espacio muestral original S. 
En otras palabras, una probabilidad condicional relativa a un subespacio A de S se 
puede calcular de forma directa de las probabilidades que se asignan a los elementos 
del espacio muestral original S. 


Definition 2.9: 


La probabilidad condicional de U, dado A , que se denota con P(B\A), se define 
como 


P{B\A) 


P(AnB) 

P{A) 


si P{A) > 0. 


Como ilustracion adicional, suponga que nuestro espacio muestral S es la pobla- 
cion de adultos en una pequena ciudad que cumplen con los requisitos para obtener 


2.6 Probabilidad conditional 
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Solucion: 


un ti'tulo universitario. Debemos clasificarlos de acuerdo con su sexo y situation 
laboral: 


Tabla 2.1: Clasificacion de los adultos en una ciudad pequena 



Empleado 

Desempleado 

Total 

Hombre 

460 

40 

500 

Mujer 

140 

260 

400 

Total 

600 

300 

900 


Uno de estos individuos se seleccionara al azar para que realice un viaje a traves 
del pais para promover las ventajas de establecer industrias nuevas en la ciudad. Nos 
interesaremos en los eventos siguientes: 

M: se elige a un hombre, 

E: el elegido tiene empleo. 

Al utilizar el espacio muestral reducido E, encontramos que 


P{M\E) 


460 

600 


23 

30' 


Sea n(A) el numero de elementos en cualquier conjunto A. Con el uso de esta nota- 
tion, podemos escribir 


P(M\E) 


n(E C M) 
n(E) 


n{E n M)/n(S) 
n(E)/n(S) 


P(EHM) 

P{E) 


donde P(E 0 M) y P(E) se encuentran a partir del espacio muestral original S. Para 
verificar este resultado, note que 


P(E) 


600 2 
900 ~ 3 


y 


P(E n M) 


460 

900 


23 

45' 


Por lo tanto, 


P{M\E) 


23/45 _ 23 
2/3 ~~ 30’ 


como antes. 


La probabilidad de que un vuelo programado normalmente saiga a tiempo es P(D) = 
0.83; la probabilidad de que llegue a tiempo es P(A) = 0.82; y la probabilidad de 
que saiga y llegue a tiempo es P(D fl4) = 0.78. Encuentre la probabilidad de que un 
avion a) llegue a tiempo, dado que salio a tiempo; y b) salio a tiempo, dado que llego a 
tiempo. 

a) La probabilidad de que un avion llegue a tiempo, dado que salio a tiempo es 


P(A\D) 


P{DnA) 

P{D) 


0.78 

(L83 


0.94. 
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Ejemplo 2.34: 


Solucion: 


b) La probabilidad de que un avion haya salido a tiempo, dado que llego a tiempo 
es 


P{D\A) 


P(D n A) 
P{A) 


0.78 

082 


= 0.95. 


J 


En el experimento del lanzamiento de un dado que se discutio en la pagina 58 
notamos que P(B\A) = 2/5; mientras que P(B) = 1/3. Es decir, P(B\A) =^P(B), 
lo cual indica que B depende de A. Consideremos ahora un experimento donde se 
sacan 2 cartas, una despues de la otra, de una baraja ordinaria, con reemplazo. Los 
eventos se definen como 


A: la primera carta es un as, 

B : la segunda carta es una espada. 

Como la primera carta se reemplaza, nuestro espacio muestral para la primera y 
segunda cartas consiste en 52 cartas, que contienen 4 ases y 13 espadas. Entonces, 


p < B ' A > = i = i r p < s > = 14 

Es decir, P(B\A) = P(B). Cuando esto es cierto, se dice que los eventos Ay B son 

independientes. 

La notion de probabilidad conditional brinda la capacidad de reevaluar la idea 
de probabilidad de un evento a la luz de la information adicional; es decir, cuando 
se sabe que ocurrio otro evento. La probabilidad P(A\B) es una “actualization” de 
P(A) basada en el conocimiento de que ocurrio el evento B. En el ejemplo 2.33 es 
importante conocer la probabilidad de que el vuelo llegue a tiempo. Se nos da la 
information de que el vuelo no salio a tiempo. Con esta information adicional, la pro- 
babilidad mas pertinente es P(A\D'), esto es, la probabilidad de que llegue a tiempo, 
dado que no salio a tiempo. En muchas situaciones las conclusiones que se obtienen 
de observar la probabilidad condicional mas importante cambian drasticamente la 
situation. En este ejemplo el calculo de P(A\D') es 


P(A\D') 


P{AC\D') 

P(D') 


0.82-0.78 

047 


0.24. 


Entonces, la probabilidad de una llegada a tiempo disminuye significativamente 
ante la presencia de la information adicional. 


El concepto de probabilidad condicional tiene innumerables aplicaciones industriales 
y biomedicas. Considere un proceso industrial en el ramo textil, donde se producen 
franjas (tiras) para una clase de ropa espetifica. Las franjas pueden estar defectuo- 
sas de dos maneras: en longitud y en textura. En cuanto a esta ultima el proceso 
de identification es muy complicado. A partir de information historica del proceso se 
sabe que 10% de las franjas no pasan la prueba de longitud, que 5% no pasan la 
prueba de textura y que solo 0.8% no pasan ambas pruebas. Si en el proceso se elige 
aleatoriamente una franja y una medicion rapida identifica que no pasa la prueba de 
longitud, icual es la probabilidad de que este defectuosa en textura? 

Considere los eventos 


L : defecto en longitud, 


T : defecto en textura 
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Asf, como la franja esta defectuosa en longitud, la probabilidad de que esta franja 
este defectuosa en textura esta dada por 


P(T\L) 


P(TnL) 

P(L) 


0.008 

0.1 


0.08. 


Entonces, el conocimiento que da la probabilidad conditional aporta information 
considerablemente mayor que tan solo saber P(T). 


Eventos independientes 

Aunque la probabilidad conditional tiene en cuent a la alteration de la probabilidad 
de un evento a la luz de material adicional, tambien nos permite entender mejor el 
muy importante concepto de independencia o, en el contexto actual, de eventos 
independientes. En el ejemplo 2.33, del aeropuerto, P(A\D) difiere de P(A). Esto 
sugiere que la ocurrencia de D influye en A y esto realmente se espera en este caso. 
Sin embargo, considere la situation donde tenemos los eventos A y B y 

P(A\B) = P(A). 

En otras palabras, la ocurrencia de B no influye en las probabilidades de ocurrencia 
de A. Aquf la ocurrencia de A es independiente de la ocurrencia de B. La importan- 
ce del concepto de independencia no se debe enfatizar en exceso. Juega un papel 
vital en el material de casi todos los capftulos de este libro y en todas las areas de 
la estadfstica aplicada. 


Definition 2.10: 


Dos eventos Ay B son independientes si y solo si 

P(B\A) = P{B) o P(A\B) = P{A), 

dada la existencia de probabilidad conditional. De otra forma, Ay B son depen- 
dientes. 


La condition P(B\A) = P(B) implica que P(A\B) = P(A ), y viceversa. Para los 
experimentos de extraction de una carta, donde mostramos que P{B\A) = P(B ) = 
1/4, tambien podemos ver que P(A\B) = P(A) = 1/13. 


2.7 Reglas multiplicativas 

A1 multiplicar la formula de la definition 2.9 por P(A), obtenemos la siguiente re- 
gia multiplicativa importante, que nos permite calcular la probabilidad de que 
ocurran dos eventos. 


Teorema 2.13: 


Si en un experimento pueden ocurrir los eventos A y B, entonces 
P(A nB) = P(A)P(B |A), dado que P(A) > 0. 


Asf la probabilidad de que ocurran Ay B es igual a la probabilidad de que ocurra 
A multiplicada por la probabilidad condicional de que ocurra B , dado que ocurre A. 
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Como los eventos A ft B y B D A son equivalentes, del teorema 2.13 se sigue que 
tambien podemos escribir 

P(A n B)= P(B n A) = P(B)P(A\B). 

En otras palabras, no importa que evento se considere como A y cual como B. 


Ejemplo 2.35:1 Suponga que tenemos una caja de fusibles que contiene 20 unidades, de las cuales 
5 estan defectuosas. Si se seleccionan 2 fusibles al azar y se retiran de la caja, uno 
despues del otro, sin reemplazar el primero, ^cual es la probabilidad de que ambos 
fusibles esten defectuosos? 

Solucion: Sean A el evento de que el primer fusible este defectuoso y B el evento de que el se- 
gundo este defectuoso; entonces, interpretamos An B como el evento de que ocurra 
A, y entonces B ocurre despues de que haya ocurrido A. La probabilidad de separar 
primero un fusible defectuoso es 1/4; entonces, la probabilidad de separar un segun- 
do fusible defectuoso de los restantes 4 es 4/19. Por lo tanto, 


P(AtlB) 



1 

19 
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Ejemplo 2.36:1 Una bolsa contiene 4 bolas blancas y 3 negras, y una segunda bolsa contiene 3 blancas 
y 5 negras. Se saca una bola de la primer a bolsa y se coloca sin verla en la segun- 
da bolsa. /,Cual es la probabilidad de que ahora se saque una bola negra de la segunda 
bolsa? 

Solucion: Sean B i, B2 y Wi, respectivamente, la extraction de una bola negra de la bolsa 1, 
una bola negra de la bolsa 2 y una bola blanca de la bolsa 1. Nos interesa la union de 
los eventos mutuamente excluyentes B\ n B2 y W\ D B 2 . Las diversas posibilidades 
y sus probabilidades se ilustran en la figura 2.8. Entonces 

P[{B X n b 2 ) O (Wi n b 2 )\ = P(Bi n b 2 ) + P{w x n b 2 ) 

= P{B x )P{B 2 \Bx) + P(Wi)P(B 2 \Wi) 



Si, en el ejemplo 2.35, el primer fusible se reemplaza y los fusibles se reacomodan 
por completo antes de que se extraiga el segundo, entonces la probabilidad de un fusi- 
ble defectuoso en la segunda selection aun es 1/4; es decir, P(B\A) = P(B ), y los 
eventos Ay B son independientes. Cuando esto es cierto, podemos sustituir P(B \ A) 
por P(B) en el teorema 2.13 para obtener la siguiente regia multiplicativa especial. 


Teorema 2.14: 


Dos eventos Ay B son independientes si y solo si 

P(AnB) = P(A)P(B). 

Por lo tanto, para obtener la probabilidad de que ocurran dos eventos indepen- 
dientes, simplemente calculamos el producto de sus probabilidades individuales. 


Ejemplo 2.37:1 Una pequena ciudad tiene un carro de bomberos y una ambulancia disponibles para 
emergencias. La probabilidad de que el carro de bomberos este disponible cuando 
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Figura 2.8: Diagrams de arbol para el ejemplo 2.36. 


se necesite es 0.98 y la probabilidad de que la ambulancia este disponible cuando se 
le requiera es 0.92. En el caso de que resulte un herido de un edificio en llamas, en- 
cuentre la probabilidad de que tanto la ambulancia como el carro de bomberos esten 
disponibles. 

Solucion: Sean A y B los respectivos eventos de que esten disponibles el carro de bomberos y 
la ambulancia. Entonces, 

P(A n B) = P(A)P(B) = (0.98)(0.92) = 0.9016. 


Ejemplo 2.38:1 Un sistema electrico consiste en cuatro componentes como se ilustra en la figura 2.9. 

El sistema funciona si los componentes Ay B funcionan, y ya sea que funcionen los 
componentes C o D. La confiabilidad (probabilidad de que funcionen) de cada uno 
de los componentes tambien se muestra en la figura 2.9. Encuentre la probabilidad de 
que a) el sistema completo funcione, y b ) que el componente C no funcione, dado que 
el sistema completo funciona. Suponga que los cuatro componentes funcionan de ma- 
nera independiente. 



D 


Figura 2.9: Un sistema electrico para el ejemplo 2.38. 

Solucion: En esta configuracion del sistema, A , B , y el subsistema C y D constituyen un siste- 
ma de circuitos en serie; mientras que el mismo subsistema C y D es un sistema de 
circuitos en paralelo. 
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Teorema 2.15: 


Ejemplo 2.39: 


Solucion: 


a) En efecto, la probabilidad de que el sistema completo funcione se calcula de la 
siguiente manera: 

P(A n Pn(C U D)) = P(A)P(B)P(C U D) 

= P(A)P{B)[1 - P{C' (1 D')\ 

= P(A)P(B)[ 1 - P{C')P(D')} 

= (0.9)(0.9)[1 - (1 - 0.8)(1 - 0.8)] 

= 0.7776. 

Las igualdades anteriores son validas por la independencia entre los cuatro 
componentes. 

b ) En este caso para calendar la probabilidad conditional, note que 

P(E1 sistema funciona pero C no funciona) 

P(el sistema funciona) 

= P{A n B n C n D) (0.9)(0.9)(1 - 0.8)(0.8) 0iec7 
P(el sistema funciona) 0.7776 


Si, en un experimento, pueden ocurrir los eventos A 3l A 2 , . . . , Ak, entonces 

p(Ax n A 2 n ■ ■ ■ n A k ) 

= p(a 1 )p{a 2 \a 1 )p(a 3 \a 1 n a 2 ) • • ■ P(A k \A! n a 2 n ■ ■ ■ n A k -i). 

Si los eventos A\, A 2 , . . . , A k son independientes, entonces 
P(A\ HA 2 n---nA k ) = p(A!)P(A 2 ) • • • P(A k ). 


Se sacan tres cartas una tras otra, sin reemplazo, de una baraja ordinaria. Encuentre 
la probabilidad de que ocurra el evento Tli 0 A 2 (~l A 3l donde A\ es el evento de que la 
primera carta sea un as rojo, A 2 el evento de que la segunda carta sea un 10 o un 
jack , y A 3 el evento de que la tercera carta sea mayor que 3 pero menor que 7. 
Primero definimos los eventos: 

A\\ la primera carta es un as rojo, 

A 2 : la segunda carta es un 10 o un jack, 

A 3 \ la tercera carta es mayor que 3 pero menor que 7. 

Entonces, 

2 8 12 

P[Al) = h p ( A ^) = ^ P(A 3 |A 1 nA 2 ) = -, 

y de aquf, por el teorema 2.15, 

P(A! n n a 3 ) = P{A X )P{A 2 \A 1 )P{A 3 \A 1 n A2) 
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Ejemplo 2.40:1 Se carga una moneda de manera que la cara tenga una probabilidad de ocurrir dos 
veces mayor que la cruz. Si se lanza tres veces la moneda, ^cual es la probabilidad 
de obtener dos cruces y una cara? 

Solucion: El espacio muestral para el experimento consiste en los 8 elementos, 

S = {HHH, HHT , HTH, THH , HTT , THT, TTH , TTT}. 

Sin embargo, con una moneda cargada ya no es posible asignar probabilidades igua- 
les a cada punto muestral. Es facil observar que P(H) = 2/3 y P{T) = 1/3 para un 
lanzamiento, ya que una cara tiene una probabilidad de ocurrir mayor que una cruz. 
Sea ahora A el evento de obtener dos cruces y una cara en los tres lanzamientos de 
la moneda. Entonces, 


A = {TTH, THT, HTT}, 

y como los resultados en cada uno de los 3 lanzamientos son independientes, del 
teorema 2.15 se sigue que 

P(TTH) = P(T)P{T)P(H) 

De manera similar, P(THT) = P(HTT) = 2/27 y, por ello, P(A) = 2/27 + 

2/27 + 2/27 = 2/9. 



Ej ercicios 

2.77 Si R es el evento de que un convicto cometiera 
un robo a mano armada y D es el evento de que el 
convicto promoviera el consumo de drogas, exprese en 
palabras lo que en probabilidades se indica como 

a) P(R\D); 

b) P(D'\R); 

c) P(R'\D’). 

2.78 Una clase de ffsica avanzada se compone de 
10 estudiantes de primer ano, 30 del ultimo ano y 10 
graduados. Las calificaciones finales muestran que 3 
estudiantes de primer ano, 10 del ultimo ano y 5 de 
los graduados obtuvieron A en el curso. Si se elige un 
estudiante al azar de esta clase y se encuentra que es 
uno de los que obtuvieron A, ^cual es la probabilidad 
de que el o ella sea un estudiante de ultimo ano? 

2.79 Una muestra aleatoria de 200 adultos se clasifi- 
ca a continuation por sexo y nivel de education. 

Education Hombre Mujer 


Primaria 

38 

45 

Secundaria 

28 

50 

Universidad 

22 

17 


Si se elige una persona al azar de este grupo, encuentre 
la probabilidad de que 

a) la persona sea hombre, dado que la persona tiene 
education secundaria; 


b) la persona no tiene un grado universitario, dado que la 
persona es mujer. 

2.80 En un experimento para estudiar la relation de 
la hipertension arterial con los habitos de fumar, se 
reunen los siguientes datos para 180 individuos: 

No Fumadores Fumadores 

fumadores moderados empedernidos 

H 21 36 30 

NH 48 26 19 

donde H y NH en la tabla representan Hipertension y 
Sin hipertension, respect ivamente. Si se selecciona uno 
de estos individuos al azar, encuentre la probabilidad de 
que la persona 

a) sufra hipertension, dado que la persona es un fuma- 
dor empedernido; 

b) sea un no fumador, dado que la persona no sufre de 
hipertension. 

2.81 En el ultimo ano de una clase de bachillerato 
con 100 estudiantes, 42 cursaron matematicas; 68, psi- 
cologfa; 54, historia; 22, matematicas e historia; 25, 
matematicas y psicologfa, 7 historia pero ni matemati- 
cas ni psicologfa; 10, las tres materias; y 8 no tomaron 
ninguna de las tres. Si se selecciona un estudiante al 
azar, encuentre la probabilidad de que 
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a) una persona inscrita en psicologfa curse las tres ma- 
terias; 

b) una persona que no se inscribio en psicologfa curse 
historia y matematicas. 

2.82 Un fabricante de una vacuna para la gripe se in- 
teresa en la calidad de su suero. Tres departamentos di- 
ferentes procesan los lotes de suero y tienen tasas de 
rechazo de 0.10, 0.08 y 0.12, respectivamente. Las ins- 
pecciones de los tres departamentos son secuenciales e 
independientes. 

a) ^Cual es la probabilidad de que un lote de suero so- 
breviva a la primera inspection departamental, pero 
sea rechazado por el segundo departamento? 

b) ^Cual es la probabilidad de que un lote de suero sea 
rechazado por el tercer departamento? 

2.83 En USA Today (5 de septiembre de 1996) se lis- 
taron como sigue los resultados de una encuesta sobre 
el uso de ropa para dormir mientras se viaja: 



Hombre 

Mujer 

Total 

Ropa interior 

0.220 

0.024 

0.244 

Camison 

0.002 

0.180 

0.182 

Nada 

0.160 

0.018 

0.178 

Pijama 

0.102 

0.073 

0.175 

Camiseta 

0.046 

0.088 

0.134 

Otros 

0.084 

0.003 

0.087 


a) ^Cual es la probabilidad de que un viajero sea una 
mujer que duerme desnuda? 

b) ^Cual es la probabilidad de que un viajero sea hom- 
bre? 

c) Suponiendo que el viajero sea hombre, ^cual es la 
probabilidad de que duerma en pijama? 

d) ^Cual es la probabilidad de que un viajero sea hom- 
bre si duerme en pijama o en camiseta? 

2.84 La probabilidad de que un automovil al que se 
llena el tanque de gasolina tambien necesite un cambio 
de aceite es 0.25, la probabilidad de que necesite un 
nuevo filtro de aceite es 0.40, y la probabilidad de que 
necesite cambio de aceite y filtro es 0.14. 

a) Si se tiene que cambiar el aceite, £cual es la proba- 
bilidad de que se necesite un nuevo filtro? 

b) Si necesita un nuevo filtro de aceite, ^cual es la pro- 
babilidad de que se tenga que cambiar el aceite? 

2.85 La probabilidad de que un hombre casado vea 
cierto programa de television es 0.4 y la probabilidad 
de que una mujer casada vea el programa es 0.5. La 
probabilidad de que un hombre vea el programa, dado 
que su esposa lo hace, es 0.7. Encuentre la probabilidad 
de que 


a) un matrimonio vea el programa; 

b) una esposa vea el programa dado que su esposo lo ve; 

c) al menos 1 persona de un matrimonio vea el pro- 
grama. 

2.86 Para matrimonios que viven en cierto suburbio, 
la probabilidad de que el esposo vote en un referendum 
es 0.21, la probabilidad de que su esposa vote es 0.28 y 
la probabilidad de que ambos voten es 0.15. ^Cual es la 
probabilidad de que 

a) al menos un miembro de un matrimonio vote? 

b) una esposa vote, dado que su esposo votara? 

c) un esposo vote, dado que su esposa no vota? 

2.87 La probabilidad de que un vehfculo que en- 
tra a las Cavernas Luray tenga matrfcula de Canada 
es 0.12, la probabilidad de que sea una casa rodante es 
0.28, y la probabilidad de que sea una casa rodante con 
matrfcula de Canada es 0.09. ^Cual es la probabilidad 
de que 

a) una casa rodante que entra a las Cavernas Luray 
tenga matrfcula de Canada? 

b) un vehfculo con matrfcula de Canada que entra a las 
Cavernas Luray sea una casa rodante? 

c) un vehfculo que entra a las Cavernas Luray no ten- 
ga matrfcula de Canada o que no sea una casa ro- 
dante? 

2.88 La probabilidad de que el jefe de familia este en 
casa cuando llame un representante de marketing es 
0.4. Dado que el jefe de familia esta en casa, la proba- 
bilidad de que se compren bienes de la companfa es 0.3. 
Encuentre la probabilidad de que el jefe de familia este 
en casa y se compren bienes de la companfa. 

2.89 La probabilidad de que un doctor diagnostique 
de manera correcta una enfermedad especffica es 0.7. 
Dado que el doctor hace un diagnostico incorrecto, la 
probabilidad de que el paciente entable una demanda 
legal es 0.9. ^.Cual es la probabilidad de que el doctor 
haga un diagnostico incorrecto y el paciente lo de- 
mande? 

2.90 En 1970, 11% de los estadounidenses completa- 
ron cuatro anos de universidad, de los cuales 43% eran 
mujeres. En 1990, 22% de los estadounidenses comple- 
taron cuatro anos de universidad, de los cuales 53% 
fueron mujeres. (Time, 19 de enero de 1996.) 

a) Dado que una persona completo cuatro anos de uni- 
versidad en 1970, ^cual es la probabilidad de que la 
persona sea mujer? 

b) ^Cual es la probabilidad de que una mujer termina- 
ra cuatro anos de universidad en 1990? 

c) ^Cual es la probabilidad de que en 1990 un hombre 
no haya terminado la universidad? 
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2.91 Un agente de bienes rai'ces tiene ocho Haves maes- 
tras para abrir varias casas nuevas. Solo 1 Have maestra 
abrira cualesquiera de las casas. Si 40% de estas casas 
por lo general se dejan abiertas, ^cual es la probabili- 
dad de que el agente de bienes rai'ces pueda entrar en 
una casa especffica, si selecciona 3 Haves maestras al 
azar antes de salir de la oficina? 

2.92 Antes de la distribution de cierto software es- 
tadfstico se prueba la precision de cada cuarto disco 
compacto (cd). El proceso de prueba consiste en correr 
cuatro programas independientes y verificar los resul- 
tados. La tasa de falla para los 4 programas de prueba 
son 0.01, 0.03, 0.02 y 0.01, respectivamente. 

a) ^Cual es la probabilidad de que un CD que se pruebe 
falle cualquier prueba? 

b) Dado que se prueba un CD, ^cual es la probabilidad 
de que falle el programa 2 o 3? 

c) En una muestra de 100, ^cuantos CD esperaria que 
se rechazaran? 

d) Dado que un cd esta defectuoso, ^cual es la probabi- 
lidad de que se pruebe? 

2.93 Una ciudad tiene dos carros de bomberos que ope- 
ran de forma independiente. La probabilidad de que un 
carro especffico este disponible cuando se le necesite es 
0.96. 

a) ^Cual es la probabilidad de que ninguno este dispo- 
nible cuando se les necesite? 

b) ^Cual es la probabilidad de que un carro de bombe- 
ros este disponible cuando se le necesite? 

2.94 La probabilidad de que Tom viva 20 anos mas 
es 0.7, y la probabilidad de que Nancy viva 20 anos 
mas es 0.9. Si suponemos independencia para ambos, 
^cual es la probabilidad de que ninguno viva 20 anos 
mas? 

2.95 Un neceser contiene 2 frascos de aspirina y 
3 frascos de comprimidos para la tiroides. Un segundo 
bolso grande contiene 3 frascos de aspirinas, 2 frascos 
de comprimidos para la tiroides y 1 frasco de pastillas 


laxantes. Si se saca 1 frasco al azar de cada equipaje, 
encuentre la probabilidad de que 

a) ambos frascos contengan comprimidos para la ti- 
roides; 

b) ningun frasco contenga comprimidos para la tiroi- 
des; 

c) los 2 frascos contengan cosas diferentes. 

2.96 La probabilidad de que una persona que visita 
a su dentista necesite rayos X es 0.6, la probabilidad 
de que una persona que necesite una placa de rayos X 
tambien tenga una amalgama es 0.3, y la probabilidad 
de que una persona que tenga una placa de rayos X y 
una amalgama tambien tenga una extraction dental es 
0.1. ^.Cual es la probabilidad de que una persona que 
visita a su dentista tenga una placa de rayos X, una 
amalgama y una extraction dental? 

2.97 Encuentre la posibilidad de seleccionar aleato- 
riamente 4 litros de leche en buenas condiciones suce- 
sivamente de un refrigerador que contiene 20 litros, de 
los cuales 5 estan echados a perder, utilizando 

a) La primera formula del teorema 2.15 de la pagina 64. 

b) Las formulas de los teoremas 2.8 y 2.9 de las paginas 
46 y 50, respectivamente. 

2.98 Suponga que el diagrama de un sistema electrico 
se muestra en la figura 2.10. ^Cual es la probabilidad 
de que el sistema funcione? Suponga que los compo- 
nentes fallan de forma independiente. 

2.99 Un sistema de circuitos se muestra en la figura 
2.11. Suponga que los componentes fallan de manera 
independiente. 

a) ^Cual es la probabilidad de que el sistema completo 
funcione? 

b) Dado que el sistema funciona, £cual es la probabili- 
dad de que el componente A no funcione? 

2.100 En la situation del ejercicio 2.99, se sabe que 
el sistema no funciona. ^Cual es la probabilidad de que el 
componente A tampoco funcione? 
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Figura 2.10: Diagrama para el ejercicio 2.98. 


Figura 2.11: Diagrama para el ejercicio 2.99. 
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2.8 Regia de Bayes 

Regresemos a la ilustracion de la seccion 2.6, donde un individuo se selecciona al 
azar de entre los adultos de una pequena ciudad, para viajar por el pals y promover 
las ventajas de establecer industrias nuevas en la ciudad. Suponga que ahora se nos 
da la information adicional de que 36 de los empleados y 12 de los desempleados 
son miembros del Club Rotario. Deseamos encontrar la probabilidad del evento A 
de que el individuo seleccionado sea miembro del Club Rotario. Con referencia a la 
figura 2.12, podemos escribir A como la union de los dos eventos mutuamente exclu- 
yentes E n A y E' (~l A. De aquf A = (E ft A) U ( E ' n A) y por el corolario 2.1 del 
teorema 2.10, y ademas el teorema 2.13, podemos escribir 

P{A) = P[(E n A) U {E' n A)] = P{E n A) + P{E' n A) 

= P(E)P(A\E) + P{E')P{A\E'). 



Figura 2.12: Diagrama de Venn para los eventos A, E y E'. 


Los datos de la seccion 2.6, junto con los datos adicionales dados arriba para el 
conjunto A , nos permiten calcular 


P(E) 


600 

900 


P(A\E) 


36 

600 


3 

50’ 


y 


p ( E ') = 


P{A\E') 


12 

300 


1 

25' 


Si mostramos estas probabilidades con el diagrama de arbol de la figura 2.13, donde 
la primera rama da la probabilidad P(E)P(A \E) y la segunda rama da la probabi- 
lidad P(E')P(A\E'), se sigue que 



Una generalization de la ilustracion precedente al caso donde el espacio muestral se 
parte en k subconjuntos la cubre el siguiente teorema, que algunas veces se denomi- 

na teorema de probabilidad total o regia de eliminacion. 


2.8 Regia de Bayes 
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Teorema 2.16: 


Prueba: 


Ejemplo 2.41: 



Figura 2.13: Diagrams de arbol para los datos de la pagina 59 con information 
adicional de la pagina 68. 


Si los eventos B i, B 2 , ■ ■ ■ , B k constituyen una partition del espacio muestral S tal 
que P(Bi) ^ 0 para i = 1, 2, . . . , k, entonces, para cualquier evento A de S, 

k k 

P{A) = J2 PA) = Y J P(Bi)P{A\Bi). 

2=1 2=1 


Considere el diagrams de Venn de la figura 2.14. Se observa que el evento A es la 
union de los eventos mutuamente excluyentes 


Bind, B 2 nd, . . . , B k n A- 

es decir, 

A = (£1 n A) u (b 2 n A) u • • • u (B k n A). 

Usando el corolario 2.2 del teorema 2.10 y ademas el teorema 2.13, tenemos 

p(A) = P[(S! n A) u (b 2 n A) u • ■ ■ u (B k n A)] 

= P{B 1 n A) + p{b 2 nd)i h P{B k n A) 

k 

= '£P(B l nA) 

2=1 

k 

= Y J P(B i )P{A\B l ). 

J 


En cierta plants de ensamble, tres maquinas, B 1, B 2 y -B3, montan 30, 45 y 25% de 
los productos, respectivamente. Por la experiencia pasada se sabe que 2, 3 y 2% 
de los productos ensamblados por cada maquina, respectivamente, tienen defectos. 
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Figura 2.14: Partition del espacio muestral S. 


Ahora, suponga que se selecciona de forma aleatoria un producto terminado. ^Cual 
es la probabilidad de que este defectuoso? 

Solucion: Considere los siguientes eventos: 

A: el producto esta defectuoso, 

Bp. el producto esta ensamblado con la maquina Si, 

S 2 : el producto esta ensamblado con la maquina B 2 , 

S 3 : el producto esta ensamblado con la maquina S 3 . 

A1 aplicar la regia de elimination, podemos escribir 

P(A) = S(S 1 )S(A|S 1 ) + S(S 2 )S(A|S 2 ) + S(S 3 )S(A|S 3 ). 


Con referenda al diagrama de arbol de la figura 2.15, encontramos que las tres ra- 
mas dan las probabilidades 

P(S 1 )S(A|S 1 ) = (0.3)(0.02) = 0.006, 

S(S 2 )S(A|S 2 ) = (0.45)(0.03) = 0.0135, 

S(S 3 )S(A|S 3 ) = (0.25)(0.02) = 0.005, 


y de aquf 


P{A) = 0.006 + 0.0135 + 0.005 = 0.0245. 

En vez de preguntar por P(A ), por la regia de elimination, suponga que consi- 
deramos ahora el problema de encontrar la probabilidad conditional S(S;| A) en el 
ejemplo 2.41. En otras palabras, suponga que se selecciono un producto de forma 
aleatoria y esta defectuoso. ^Ciial es la probabilidad de que este producto fuera en- 
samblado con la maquina Bf! Preguntas de este tipo se pueden contestar usando el 
siguiente teorema, la regia de Bayes: 


2.8 Regia de Bayes 
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Teorema 2.17: 


Prueba: 


Ejemplo 2.42:1 
Solucion: 



Figura 2.15: Diagrama de arbol para el ejemplo 2.41. 


(Regia de Bayes) Si los eventos B 2 , . . . , Bk constituyen una partition del 
espacio muestral S, donde P(Bj) 0 para i / 1, 2, . . . , k, entonces, para cualquier 
evento A en S tal que P(A) ^ 0, 


P(B r \A) 


P(B r n A) 
E P(B> n A) 

i = 1 


P(B r )P{A\B r ) 

E P(B i )P(^|Si) 


para r = 1 , 2, . . . , k. 


Por la definition de probabilidad condicional, 


P{B r \A) 


P(B r n A) 
P(A) 


y con el teorema 2.16 en el denominador, tenemos 

P{Br \A) = P{Br 0 A) = P ( B r)P(A\B r ) , 
E P(Bi n A) E p(Bi)p(a\b z ) 

i= 1 i= 1 


que completa la demostracion. 


J 


Con referenda al ejemplo 2.41, si se elige al azar un producto y se encuentra que esta 
defectuoso, ^cual es la probabilidad de que este ensamblado con la maquina B^l 
Utilizando la regia de Bayes para escribir 


P(B 3 \A) 


P(B 3 )P(A\B 3 ) 

P(Bi)P(A\Bi) + P(B 2 )P(A\B 2 ) + P(B 3 )P(A\B 3 ) ’ 


y sustituyendo despues las probabilidades calculadas en el ejemplo 2.41, tenemos 


P(B 3 \A) 


0.005 

0.006 + 0.0135 + 0.005 


0.005 _ 10 
0.0245 ““ 49' 
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En vista del hecho de que se selecciono un producto defectuoso, este resultado sugie- 
re que probablemente no fue ensamblado con la maquina B 3 . 


Ejemplo 2.43:1 Una empresa de manufactura emplea tres planes analfticos para el diseno y desarro- 
llo de un producto especffico. Por razones de costos, los tres se utilizan en momentos 
diferentes. De hecho, los planes 1, 2 y 3 se utilizan, respectivamente, para 30, 20 y 
50% de los productos. La “tasa de defectuosos” es diferente para los tres procedi- 
mientos, es decir, 

P(D\Pi) = 0.01, P(D\P 2 ) = 0.03, P(D\P 3 ) = 0.02, 

donde P(D \ Pj) es la probabilidad de un producto defectuoso, dado el plan j. Si se 
observa un producto al azar y se encuentra que esta defectuoso, ^cual fue el plan que 
se uso con mayor probabilidad y fue el responsable? 

Solucion: De la declaracion del problema 

P(Pi) = 0.30, P(P 2 ) = 0.20, y P(P 3 ) = 0.50, 

debemos encontrar P(Pj\D) para j = 1, 2, 3. La regia de Bayes del teorema 2.17 
muestra 


P(Pi\D) 


P(Pi)P(D|Pi) 

P(Pi)P(D \Pi) + P(P 2 )P(D\P 2 ) + P(P 3 )P(D|P 3 ) 
(0.30)(0.01) 0.003 

(0.3)(0.01) + (0.20)(0.03) + (0.50)(0.02) “ 0.019 ' 


Asimismo, 


P(P 2 \D) 


(0.03)(0.20) 

0.019 


0.316 y P{P 3 \D) 


(0.02)(0.50) 

0.019 


0.526. 


La probabilidad condicional de un defecto dado el plan 3 es la mayor de las tres; de 
manera que el resultado de un defecto en un producto elegido al azar es mas proba- 
ble usando el plan 3. 

Con la regia de Bayes, un metodo estadi'stico, llamado metodo bayesiano, tiene 
mucha utilidad para las aplicaciones. En el capitulo 18 estudiaremos una introduc- 
cion al metodo bayesiano. 


Ej ercicios 

2.101 En cierta region del pai's se sabe por experiencia 
que la probabilidad de seleccionar un adulto mayor de 
40 anos de edad con cancer es 0.05. Si la probabilidad 
de que un doctor diagnostique de forma correcta que 
una persona con cancer tiene la enfermedad es 0.78, y 
la probabilidad de que diagnostique de forma incorrec- 
ta que una persona sin cancer tiene la enfermedad es 
0.06, ^cual es la probabilidad de que a una persona se 
le diagnostique cancer? 

2.102 La policfa planea hacer cumplir los lhnites de 
velocidad usando un sistema de radar en 4 diferentes 
puntos dentro de la ciudad. Las trampas de radar en 


cada uno de los sitios Li, L 2 , L 3 y L 4 operan 40, 30, 
20 y 30% del tiempo, y si una persona maneja a gran 
velocidad cuando va a su trabajo tiene las probabilida- 
des de 0.2, 0.1, 0.5 y 0.2, respectivamente, de pasar por 
esos lugares. ^Cual es la probabilidad de que reciba una 
multa por conducir con exceso de velocidad? 

2.103 Refierase al ejercicio 2.101. ^Cual es la proba- 
bilidad de que una persona a la que se le diagnostica 
cancer realmente tenga la enfermedad? 

2.104 Si en el ejercicio 2.102 la persona es multada 
por conducir con exceso de velocidad en su camino al 
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trabajo, /.cual es la probabilidad de que pase por el 
sistema de radar que se ubica en L 2 ? 

2.105 Suponga que los cuatro inspectores de una 
fabrica de pelfcula colocan la fecha de caducidad en 
cada paquete de pelfcula al final de la lfnea de montaje. 
John, quien coloca la fecha de caducidad en 20% de 
los paquetes, no la pone una vez en cada 200 paquetes; 
Tom, quien la coloca en 60% de los paquetes, no la co- 
loca una vez en cada 100 paquetes; Jeff, quien la coloca 
en 15% de los paquetes, no lo hace una vez en cada 90 
paquetes; y Pat, que fecha 5% de los paquetes, falla 
una vez en cada 200 paquetes. Si un consumidor se 
queja de que su paquete de pelfcula no muestra la fecha 
de caducidad, ^cual es la probabilidad de que haya sido 
inspeccionado por John? 

2.106 Una companfa telefonica regional opera tres 
estaciones de retransmision identicas en diferentes si- 
tios. Durante un periodo de un ano, el numero de des- 
perfectos reportados por cada estacion y las causas se 
muestran a continuation. 

Estaciones ABC 

Problemas con el suministro de electricidad 2 11 

Desperfecto de la computadora 4 3 2 

Fallas del equipo electrico 5 4 2 

Fallas ocasionadas 

por otros errores humanos 7 7 5 

Suponga que se reporta una falla y que se encuentra 
que fue ocasionada por otros errores humanos. ^Cual es 
la probabilidad de que provenga de la estacion C? 


Ejercicios de repaso 

2.109 Un suero de la verdad tiene la propiedad de 
que 90% de los sospechosos culpables se juzgan de for- 
ma adecuada; mientras que, por supuesto, 10% de los 
sospechosos culpables erroneamente se consideran ino- 
centes. Por otro lado, a los sospechosos inocentes se les 
juzga de manera erronea 1% de las veces. Si el sospe- 
choso se selecciona de un grupo de sospechosos, de los 
cuales solo 5% alguna vez han cometido un delito, y el 
suero indica que es culpable, ^cual es la probabilidad 
de que sea inocente? 

2.110 Una alergista afirma que 50% de los pacientes 
que examina son alergicos a algun tipo de hierba. ^Cual 
es la probabilidad de que 

a) exactamente tres de sus cuatro proximos pacientes 
sean alergicos a hierbas? 

b) ninguno de sus siguientes 4 pacientes sea alergico a 
hierbas? 

2.111 Mediante la comparacion de las regiones apro- 
piadas en un diagrama de Venn, verifique que 

a) (An B) U (An B') = A; 

b) A' n (B' u C) = (A' n B') u (A' n C). 


2.107 La contamination de los rfos en Estados Uni- 
dos es un problema desde hace varios anos. Considere 
los siguientes eventos: 

A = {El rfo esta contaminado.} 

B = {Una prueba en una muestra de agua detecta 
contamination. } 

C = {Se permite la pesca.} 

Suponga P(A) = 0.3, P(B\A) = 0.75, P(B\A') = 0.20, 
P(C\AnB) = 0.20, P(C\A’nB) = 0.15, P(C\AnB') = 
0.80 y P(C\A'nB) = 0.90. 

a) Encuentre P(AnBnC). 

b) Encuentre P(B'nC). 

c ) Encuentre P(C). 

d ) Encuentre la probabilidad de que el rfo este con- 
taminado, dado que se permite la pesca y que la 
prueba de la muestra no detecta contamination. 

2.108 Una cadena de tiendas de pintura produce 
y vende pintura latex y semiesmaltada. Con base en las 
ventas de largo plazo, la probabilidad de que un cliente 
compre pintura latex es 0.75. De los que compran pin- 
tura de latex, 60% tambien compran rodillos. Pero 30% 
de los compradores de pintura semiesmaltada compran 
rodillos. Un comprador que se selecciona al azar com- 
pra un rodillo y una lata de pintura. ^Cual es la proba- 
bilidad de que sea pintura latex? 


2.112 Las probabilidades de que una estacion de 
servicio bombee gasolina en 0, 1, 2, 3, 4, 5 o mas 
automoviles durante cierto periodo de 30 minutos son, 
respectivamente, 0.03, 0.18, 0.24, 0.28, 0.10 y 0.17. 
Encuentre la probabilidad de que en este periodo de 
30 minutos 

a) mas de 2 automoviles reciban gasolina; 

b) a lo mas 4 automoviles reciban gasolina; 

c) 4 o mas automoviles reciban gasolina. 

2.113 ^Cuantas manos de bridge que contengan 
4 espadas, 6 diamantes, 1 trebol y 2 corazones son po- 
sibles? 

2.114 Si la probabilidad de que una persona cometa 
un error en su declaration de impuestos sobre la renta 
es 0.1, encuentre la probabilidad de que 

a) cuatro personas no relacionadas cometan cada una 
un error; 

b) el senor Jones y la senora Clark cometan un error, 
y el senor Roberts y la senora Williams no cometan 
errores. 
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Capitulo 2 Probabilidad 


2115 Una empresa industrial grande usa tres hoteles 
locales para ofrecer hospedaje nocturno a sus clientes. 
Por la experiencia pasada se sabe que a 20% de los 
clientes se les asignan habitaciones en el Ramada Inn, 
a 50% en el Sheraton y a 30% en el Lakeview Motor 
Lodge. Si hay una falla en la plomeria en 5% de las ha- 
bitaciones del Ramada Inn, en 4% de las habitaciones 
del Sheraton y en 8% de las habitaciones del Lakeview 
Motor Lodge, ^cual es la probabilidad de que 

a) a un cliente se le asigne una habitation con fallas en 
la plomeria? 

b) a una persona con una habitation que tiene fallas de 
plomeria se le haya asignado acomodo en el Lake- 
view Motor Lodge? 

2.116 De un grupo de 4 hombres y 5 mujeres, ^,cuan- 
tos comites de 3 miembros son posibles 

o) sin restricciones? 

b) con 1 hombre y 2 mujeres? 

c) con 2 hombres y 1 mujer, si cierto hombre debe 
estar en el comite? 

2.117 La probabilidad de que un paciente se recupere 
de una operation de corazon delicada es 0.8. ^Cual es 
la probabilidad de que 

o) exactamente 2 de los siguientes 3 pacientes que tie- 
nen esta operation sobrevivan? 

b) los siguientes 3 pacientes que tengan esta operation 
sobrevivan? 

2.118 En cierta prision federal se sabe que 2/3 de 
los reclusos son menores de 25 anos de edad. Tambien 
se sabe que 3/5 de los reos son hombres y que 5/8 son 
mujeres de 25 anos de edad o mayores. ^Cual es la pro- 
babilidad de que un prisionero seleccionado al azar de 
esta prision sea mujer y de al menos 25 anos de edad? 

2.119 De 4 manzanas rojas, 5 verdes y 6 amarillas, 
^cuantas selecciones de 9 manzana son posibles si se 
deben seleccionar 3 de cada color? 

2.120 De una caja que contiene 6 bolas negras y 4 
verdes se extraen tres bolas sucesivamente, cada bola 
se reemplaza en la caja antes de que se extraiga la si- 
guiente. ^.Cual es la probabilidad de que 

o) las 3 sean del mismo color? 
b) cada color este representado? 

2.121 Un cargamento de 12 televisores contiene tres 
defectuosos. ^De cuantas formas un hotel puede com- 
prar 5 de estas unidades y recibir al menos 2 defec- 
tuosas? 

2.122 Se examinaron los planes de estudio de inge- 
nieria electrica, quimica, industrial y mecanica. Se en- 
contro que algunos estudiantes no cursan estadistica, 


algunos cursan un semestre y otros cursan dos semes- 
tres. Considere los siguientes eventos: 

A: Se cursa algo de estadistica. 

B: Ingenieros electricos e industrials. 

C\ Ingenieros quimicos. 

Utilice diagramas de Venn y sombree las areas que 
representan los siguientes eventos: 

a) (A n B)'\ 

b) (. A U BY; 

c ) (AflCjU B. 

2.123 Cierta dependencia federal emplea a tres ern- 
presas consultoras (A, B y C) con probabilidades de 
0.40, 0.35 y 0.25, respectivamente. De la experiencia 
pasada se sabe que las probabilidades de excesos en 
costos de las empresas son 0.05, 0.03 y 0.15, respectiva- 
mente. Suponga que la agenda experimenta un exceso 
en los costos. 

a) ^Cual es la probabilidad de que la empresa consul- 
tora implicada sea la compani'a Cl 

b ) ^Cual es la probabilidad de que sea la compania Al 

2.124 Un fabricante estudia los efectos de la tempe- 
ratura de coccion, tiempo de coccion y tipo de aceite 
para la coccion al elaborar papas fritas. Se utilizan 
3 diferentes temperaturas, 4 diferentes tiempos de coc- 
cion y 3 diferentes aceites. 

a) ^,Cual es el numero total de combinaciones a estu- 
diar? 

b ) ^Cuantas combinaciones se utilizaran para cada tipo 
de aceite? 

c) Discuta por que las permutaciones no son un proble- 
ma en este ejercicio. 

2.125 Considere la situation del ejercicio 2.124 y su- 
ponga que el fabricante puede probar solo dos combi- 
naciones en un dia. 

a) ^Cual es la probabilidad de que se elija cualquier 
conjunto dado de 2 corridas? 

b) ^Cual es la probabilidad de que se utilice la tempe- 
ratura mas alta en cualquiera de estas 2 combinacio- 
nes? 

2.126 Se sabe que en las mujeres de mas de 60 anos 
se desarrolla cierta forma de cancer con una probabili- 
dad de 0.07. Se dispone de una prueba de sangre para 
la detection de tal padecimiento, aunque no es infali- 
ble. De hecho, se sabe que 10% de las veces la prueba 
da negativo falso (es decir, incorrectamente la prue- 
ba da un resultado negativo) y 5% de las veces la prueba 
da positivo falso (es decir, incorrectamente la prueba da 
un resultado positivo). Si una mujer de mas de 60 anos 
que se sometio a la prueba y recibio un resultado fa- 
vorable (negativo), ^.cual es la probabilidad de que ella 
tenga la enfermedad? 
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2.127 Un fabricante de cierto tipo de componente 
electronico abastece a los proveedores en lotes de 20. 
Suponga que 60% de todos los lotes no contienen com- 
ponentes defectuosos, que 30% contienen un compo- 
nente defectuoso y que 10% contienen dos componentes 
defectuosos. Se elige un lote y de este se extraen alea- 
toriamente dos componentes, los cuales se prueban con 
el resultado de que ninguno esta defectuoso. 

a) ^Cual es la probabilidad de que haya cero compo- 
nentes defectuosos en el lote? 

b) ^Cual es la probabilidad de que haya uno defectuoso 
en el lote? 

c) ^Cual es la probabilidad de que haya dos defectuo- 
sos en el lote? 

2.128 Hay una extrana enfermedad que solo afecta 
a 1 de cada 500 individuos. Se dispone de una prueba 
para detectarla, pero desde luego esta no es infalible. 
Un resultado correcto positivo (un paciente que real- 
mente tiene la enfermedad) ocurre 95% de las veces; 
en tanto que un resultado positivo falso (un paciente 
que no tiene la enfermedad) ocurre 1% de las veces. Si 
se somete a prueba un individuo elegido al azar, y el 
resultado es positivo, /.cual es la probabilidad de que 
el individuo tenga la enfermedad? 

2.129 Una companfa constructora emplea a 2 inge- 
nieros de ventas. El ingeniero 1 hace el trabajo de es- 
timar costos en 70% de las cotizaciones solicitadas a la 
empresa. El ingeniero 2 lo hace para 30% de tales coti- 
zaciones. Se sabe que la tasa de error para el ingeniero 
1 es tal que 0.02 es la probabilidad de un error cuando 
este hace el trabajo; mientras que la probabilidad de 
un error en el trabajo del ingeniero 2 es 0.04. Suponga 
que llega una solicitud de cotizacion y ocurre un error 
grave al estimar los costos. ^Que ingeniero supondrfa 
usted que hizo el trabajo? Explique y muestre todo el 
desarrollo. 

2.130 En el rubro del control de la calidad la ciencia 
estadi'stica a menudo se utiliza para determinar si un 
proceso esta “fuera de control”. Suponga que el pro- 
ceso, de hecho, esta fuera de control y que 20% de los 
artfculos producidos estan defectuosos. 

a) Si tres artfculos salen en serie de la h'nea de proceso, 
^cual es la probabilidad de que los tres esten defec- 
tuosos? 

b) Si salen cuatro artfculos en serie, ^cual es la proba- 
bilidad de que tres esten defectuosos? 

2.131 En una planta industrial se esta realizando un 
estudio para determinar que tan rapido los trabaj ado- 
res lesionados regresan a sus labores despues del per- 
cance. Los registros demuestran que 10% de todos los 
trabaj adores lesionados llegan al hospital para atencion 
y 15% estan de vuelta en su trabajo al dfa siguiente. 
Ademas, los estudios demuestran que 2% llegan al hos- 
pital y estan de vuelta al trabajo al dfa siguiente. Si un 
trabaj ador se lesiona, ^cual es la probabilidad de que 


llegue al hospital o regrese al trabajo al dfa siguiente, 
o ambas? 

2.132 Una empresa acostumbra a capacitar operado- 
res que realizan ciertas actividades en la h'nea de pro- 
duction. Se sabe que los operadores que asisten al curso 
de capacitacion son capaces de cumplir sus cuotas de 
production 90% de las veces. Los nuevos operarios que 
no toman el curso de capacitacion solo cumplen con sus 
cuotas 65% de las veces. Cincuenta por ciento de los 
nuevos operadores asisten al curso. Dado que un nuevo 
operador cumple con su cuota de production, ^cual es la 
probabilidad de que el (o ella) haya asistido al curso? 

2.133 Una encuesta aplicada a quienes usan un soft- 
ware estadfstico especffico indica que 10% no quedaron 
satisfechos. La mitad de quienes no quedaron satisfe- 
chos compraron el sistema al vendedor A. Se sabe que 
20% de los encuestados compraron al vendedor A. Dado 
que el paquete de software se compro del vendedor A, 
^cual es la probabilidad de que ese usuario especffico 
haya quedado insatisfecho? 

2.134 Durante las crisis economicas, se despide a 
obreros y a menudo se les reemplaza con maquinas. Se 
revisa la historia de 100 trabajadores cuya perdida del 
empleo se atribuye a los avances tecnologicos. Por cada 
uno de esos individuos se determino si el o ella recibie- 
ron un empleo alternative dentro de la misma compa- 
fu'a, si encontraron un empleo en otra compani'a pero 
trabajando en la misma area, si encontraron trabajo 
en una nueva area o si llevan desempleados mas de un 
ano. Ademas, se registro el estatus sindical de cada tra- 
bajador. La siguiente tabla resume los resultados. 

Sindica- No sindi- 
lizado calizado 


Sigue en la misma companfa 

40 

15 

Esta en otra companfa 



(en la misma area) 

13 

10 

Esta en una nueva area 

4 

11 

Esta desempleado 

2 

5 


a) Si los trabajadores seleccionados encontraron em- 
pleo en una nueva compani'a en la misma area, ^cual 
es la probabilidad de que el trabaj ador sea miembro 
de un sindicato? 

b ) Si el trabajador es miembro de un sindicato, /.cual es 
la probabilidad de que este desempleado desde hace 
un ano? 

2.135 Hay una probabilidad de 50-50 de que la reina 
tenga el gen de la hemofilia. Si lo tiene, entonces cada 
uno de los prfncipes tiene una probabilidad de 50-50 
de tener hemofilia independientemente. Si la reina no 
tiene el gen, el prfncipe no tendra la enfermedad. Su- 
ponga que la reina tuvo tres prfncipes que no padecen 
la enfermedad, ^cual es la probabilidad de que la reina 
tenga el gen? 

2.136 ^Cual es la probabilidad de que dos estudian- 
tes no tengan la misma fecha de cumpleanos en un 
grupo de 60 alumnos? (Vease el ejercicio 2.50.) 



Capitulo 3 

Variables aleatorias y 
distribuciones de probabilidad 


3.1 Concepto de variable aleatoria 

La estadi'stica realiza inferencias acerca de las poblaciones y sus caracteristicas. 
Se llevan a cabo experimentos cuyos resultados se encuentran sujetos al azar. La 
prueba de un numero de componentes electronicos es un ejemplo de experimento 
estadfstico, que es un concepto que se utiliza para describir cualquier proceso me- 
diante el cual se generan varias observaciones al azar. Con frecuencia es importante 
asignar una descripcion numerica al resultado. Por ejemplo, el espacio muestral que 
ofrece una descripcion detallada de cada posible resultado, cuando se prueban tres 
componentes electronicos, se escribe como 

S = {NNN, NND , NDN, DNN , NDD , DND, DDN, DDD}, 


donde N denota “no defectuoso”; y D , “defectuoso” . Evidentemente, nos interesa el 
numero de defectuosos que se presenten. De esta forma, a cada punto en el espacio 
muestral se le asignara un valor numerico de 0, 1, 2 o 3. Estos valores son, por 
supuesto, cantidades aleatorias determinadas por el resultado del experimento. Se 
pueden ver como valores que toma la variable aleatoria X , es decir, el numero de 
articulos defectuosos cuando se prueban tres componentes electronicos. 


Definicion 3.1: 


Una variable aleatoria es una funcion que asocia un numero real con cada ele- 
mento del espacio muestral. 


Utilizaremos una letra mayuscula, digamos X, para denotar una variable alea- 
toria; y su correspondiente letra minuscula, x en este caso, para uno de sus valores. 
En el ejemplo de la prueba de componentes electronicos, observamos que la variable 
aleatoria X toma el valor 2 para todos los elementos en el subconjunto 


E = {DDN, DND , NDD} 


del espacio muestral S. Esto es, cada valor posible de X representa un evento que es 
un subconjunto del espacio muestral para el experimento dado. 
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Ejemplo 3.1:1 Se sacan 2 bolas de manera sucesiva sin reemplazo, de una urna que contiene 4 bolas 
rojas y 3 negras. Los posibles resultados y los valores y de la variable aleatoria Y, 
donde Y es el numero de bolas rojas, son 


Espacio Muestral 

y 

RR 

2 

RB 

l 

BR 

l 

BB 

0 


Ejemplo 3.2:1 El empleado de un almacen regresa tres cascos de seguridad al azar a tres trabajado- 
res de un taller siderurgico que ya los habfan probado. Si Smith, Jones y Brown, en 
ese orden, reciben uno de los tres cascos, liste los puntos muestrales para los posibles 
ordenes de regreso de los cascos, y encuentre el valor m de la variable aleatoria M 
que representa el numero de asociaciones correctas. 

Solucion: Si S, J y B representan, respectivamente, los cascos de Smith, Jones y Brown, en- 
tonces los posibles arreglos en los cuales se pueden regresar los cascos y el numero 
de asociaciones correctas son 


Espacio Muestral m 


SJB 

3 

SBJ 

1 

BJS 

1 

JSB 

1 

JBS 

0 

BSJ 

0 


En cada uno de los dos ejemplos anteriores, el espacio muestral contiene un nu- 
mero finito de elementos. Por otro lado, cuando se lanza un dado hasta que saiga un 5, 
obtenemos un espacio muestral con una secuencia de elementos interminable, 

S = {F, NF , NNF , NNNF , . . . }, 

donde F y N representan, respectivamente, la ocurrencia y la no ocurrencia de un 5. 
Sin embargo, incluso en este experimento el numero de elementos puede ser igual a 
todos los numeros enter os, de manera que hay un primer elemento, un segundo, un 
tercero y asi sucesivamente, y en este sentido se pueden contar. 

Hay casos en que la variable aleatoria es categorica por naturaleza y se utilizan 
las llamadas variables ficticias o indicadoreas. Un buen ejemplo de ello es el caso 
en que la variable aleatoria es binaria por naturaleza, como se indica en el siguiente 
ejemplo. 


Ejemplo 3.3:1 Considere la condicion en que los componentes llegan de la lmea de ensamble y se 
les clasifica como defectuosos o no defectuosos. Defina la variable aleatoria X me- 
diate 


X = 


1, si el componente esta defectuoso. 

0, si el componente no esta defectuoso. 


3.1 Concepto de variable aleatoria 
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Evidentemente la asignacion de 1 o 0 es arbitraria, aunque bastante conveniente, lo 
cual se volvera mas claro conforme avancemos en los siguientes capi'tulos. La varia- 
ble aleatoria en la que se eligen 0 y 1 para describir dos posibles valores se denomina 

variable aleatoria de Bernoulli. 

Veremos mas casos de variables aleatorias en los siguientes cuatro ejemplos. 


Ejemplo 3.4:1 Los estadisticos utilizan planes de muestreo ya sea para aceptar o para rechazar 
lotes de materiales. Suponga que uno de los planes de muestreo implica el muestreo inde- 
pendiente de 10 articulos de un lote de 100 de ellos, donde 12 estan defectuosos. 

Sea X la variable aleatoria definida como el nrimero de articulos que estan defec- 
tuososo en la muestra de 10. En este caso, la variable aleatoria toma los valores 0, 
1 , 2 ,..., 9 , 10 . 


Ejemplo 3.5:1 Suponga que un plan de muestreo implica el muestreo de articulos de un proceso 
hasta que se encuentre uno defectuoso. La evaluation del proceso dependera de 
cuantos articulos consecutivos se observen. En ese aspecto, sea X una variable alea- 
toria que se define como el niimero de articulos observados antes de que saiga uno 
defectuoso. Se asigna N a no defectuoso, y D a defectuoso; los espacios muestra- 
les son S = (D) dado que X = 1, S = (ND) dado que X = 2, S = ( NND ) dado que 
X = 3, y asi sucesivamente. 


Ejemplo 3.6:1 El interes se centra en la proportion de personas que responden a cierta encuesta en- 
viada por correo. Sea X tal proportion. X es una variable aleatoria que toma todos 
los valores de x para los cuales 0 < x < 1. 


Ejemplo 3.7:1 Sea X la variable aleatoria definida como el tiempo de espera, en horas, entre con- 
ductores sucesivos que exceden los limites de velocidad detectados por una unidad 
de radar. La variable aleatoria X toma todos los valores de x tales que x > 0. 


Definition 3.2: 


Si un espacio muestral contiene un nrimero finito de posibilidades, o una serie in- 
terminable con tantos elementos como numeros enteros existen, se llama espacio 
muestral discreto. 


Los resultados de algunos experimentos estadisticos no pueden ser ni finitos ni 
contables. Es el caso, por ejemplo, cuando se realiza una investigation para medir las 
distancias que recorre cierta marca de automovil, en una ruta de prueba preesta- 
blecida, con cinco litros de gasolina. Supongamos que la distancia es una variable 
que se mide con algun grado de precision, entonces claramente tenemos un niimero 
infinite de distancias posibles en el espacio muestral, que no se pueden igualar a 
todos los numeros enteros. Tambien, si se registrara el tiempo requerido para que 
ocurra una reaction quimica, una vez mas los posibles intervalos de tiempo que for- 
man nuestro espacio muestral son un niimero infinite e incontable. Vemos ahora que 
no todos los espacios muestrales necesitan ser discretos. 


Definition 3.3: 


Si un espacio muestral contiene un niimero infinite de posibilidades igual al niime- 
ro de puntos en un segmento de linea, se le llama espacio muestral continuo. 


Una variable aleatoria se llama variable aleatoria discreta si se puede contar 
su conjunto de resultados posibles. En los ejemplos 3.1 a 3.5 las variables aleatorias 
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son discretas. Sin embargo, una variable aleatoria cuyo conjunto de valores posibles 
es un intervalo completo de numeros no es discreta. Cuando una variable aleatoria 
puede tomar valores en una escala continua, se le denomina variable aleatoria 
continua. A menudo los posibles valores de una variable aleatoria continua son 
precisamente los mismos valores que contiene el espacio muestral continuo. Eviden- 
temente en los ejemplos 3.6 y 3.7 se trata de variables aleatorias continuas. 

En la mayorfa de los problemas practicos, las variables aleatorias continuas 
representan datos medidos , como serfan todos los posibles pesos, alturas, temperatu- 
ras, distancias o periodos de vida; en tanto que las variables aleatorias discretas re- 
presentan datos por conteo , como el nurnero de artfculos defectuosos en una muestra 
de k artfculos o el nurnero de accidentes de carretera por ano en una entidad especf- 
fica. Observe que las variables aleatorias Yy M de los ejemplos 3.1 y 3.2 representan 
ambas datos por conteo: Y el nurnero de bolas rojas y M el nurnero de asignaciones 
de cascos correctas. 


3.2 Distribuciones discretas de probabilidad 

Una variable aleatoria discreta toma cada uno de sus valores con cierta probabilidad. 
A1 lanzar una moneda tres veces, la variable X , que representa el nurnero de caras, 
toma el valor 2 con probabilidad 3/8, pues 3 de los 8 puntos muestrales igualmente 
probables tienen como resultado dos caras y una cruz. Si se suponen pesos iguales 
para los eventos simples del ejemplo 3.2, la probabilidad de que ningun empleado 
obtenga de vuelta su casco correcto, es decir, la probabilidad de que M tome el valor 
cero, es 1/3. Los valores posibles m de M y sus probabilidades son 


m 

0 1 3 

P(M = m) 

111 

3 2 6 


Note que los valores de m agotan todos los casos posibles y por ello las probabili- 
dades suman 1. 

Con frecuencia es conveniente representar todas las probabilidades de una varia- 
ble aleatoria X usando una formula, la cual necesariamente serfa una funcion de los 
valores numericos x que denotaremos con f(x), g{x), r(x), y asf sucesivamente. Por lo 
tanto, escribimos f(x) = P(X = x)\ es decir, /( 3) = P(X = 3). El conjunto de pares 
ordenados (x, f(x)) se llama funcion de probabilidad o distribucion de proba- 
bilidad de la variable aleatoria discreta X. 


Definicion 3.4: 


El conjunto de pares ordenados (x, f(x)) es una funcion de probabilidades, 
una funcion de masa de probabilidad o una distribucion de probabilidad 

de la variable aleatoria discreta X si, para cada resultado posible x, 

1- fix) > 0, 

2 . £/(*) = !, 

X 

3. P{X = x) = f{x). 


Ejemplo 3.8:1 Un embarque de 8 microcomputadoras similares para una tienda al detalle contiene 3 
que estan defectuosas. Si una escuela hace una compra al azar de dos de estas compu- 
tadoras, encuentre la distribucion de probabilidad para el nurnero de defectuosas. 
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Solucion: 


Ejemplo 3.9: 


Solucion: 


Definicion 3.5: 


Sea X una variable aleatoria cuyos valores x son los numeros posibles de compu- 
tadoras defectuosas que la escuela compra. Entonces, x puede ser cualquiera de los 
numeros 0, 1 y 2. Asi, 


( 3 j f 5 ') 

/( 0) = P(X = 0) = 

V2/ 

( 3 j ( 5 ) 

/(l) = P(X - 1) = AlAil 

ta/ 

( 3 j C 5 j 

/( 2) = P(X = 2) = 


10 

28’ 

15 

28’ 

_3_ 

28' 


De manera que la distribucion de probabilidad de X es 


X 

0 

i 

2 


f ( x ) 

10 

28 

15 

28 

3 

28 

J 


Si una agencia automotriz vende 50% de su inventario de cierto vehiculo extranjero 
equipado con bolsas de aire, encuentre una formula para la distribucion de probabi- 
lidad del numero de automoviles con bolsas de aire entre los siguientes 4 vehfculos 
que venda la agencia. 

Como la probabilidad de vender un automovil con bolsas de aire es 0.5, los 2 4 = 16 
puntos del espacio muestral tienen la misma probabilidad de ocurrencia. Por lo tan- 
to, el denominador para todas las probabilidades, y tambien para nuestra funcion, 
es 16. Para obtener el numero de formas de vender tres modelos con bolsas de aire, 
necesitamos considerar el numero de formas de dividir 4 resultados en dos celdas 
con 3 modelos con bolsas de aire asignadas a una celda, y el modelo sin bolsas de 
aire asignado a la otra. Esto se puede hacer de ( 4 ) = 4 formas. En general, el evento 
de vender x modelos con bolsas de aire y 4 — x modelos sin bolsas de aire puede 
ocurrir de ( 4 ) formas, donde x puede ser 0, 1, 2, 3 o 4. Entonces, la distribucion de 
probabilidad f(x) = P(X = x) es 

H 

f( x ) = ~^r, para x = 0,1, 2, 3, 4 

Hay muchos problemas donde queremos calcular la probabilidad de que el valor 
observado de una variable aleatoria X sea menor o igual que algun numero real x. 
A1 escribir F(x) = P{X < x) para cualquier numero real x, definimos F(x) como la 

funcion de la distribucion acumulada de la variable aleatoria X. 


J 


La funcion de la distribucion acumulada F(x) de una variable aleatoria dis- 
creta X con distribucion de probabilidad f(x) es 

F(x) = P{X < x) = f(t), para — oo < x < oo. 

t<X 


Para la variable aleatoria M, el numero de asociaciones correctas en el ejemplo 
3.2, tenemos 


F( 2 ) = P(M < 2 ) = /( 0 ) + /( 1 ) = ^ + \ = 
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La distribution acumulada de M es 


para m < 0, 
para 0 < m < 1, 
para 1 < m < 3, 
para m > 3. 

Se deberia notar en particular el hecho de que la distribution acumulada es una 
funcion no decreciente monotona que se define no solo para los valores que toma la 
variable aleatoria dada, sino para todos los numeros reales. 


fo, 


F(m) 


Ejemplo 3.10:1 Encuentre la funcion de la distribution acumulada de la variable aleatoria X del 
ejemplo 3.4. Mediante el uso de F(x), verifique que /( 2) = 3/8. 

Solucion: El calculo directo de la distribution de probabilidad del ejemplo 3.4 da /( 0) = 1/16, 
/(l) = 1/4, /( 2) = 3/8, /(3) = 1/4 y /( 4) = 1/16. Por lo tanto, 

F(0) = /( 0 ) = 

E(l) = /(0) + /(l) = ^, 

F(2) = /(0) + /(l) + /(2) = H 

1 ^ 

F(3) = /(0) + /(l) + /(2) + /(3) = -, 

F( 4) = /( 0) + /( 1) + /( 2) + /( 3) + /( 4) = 1. 


De aquf, 


Entonces, 


F(x) = < 


'0, 

para x 

1 

16 ’ 

para 0 

5 

16 ’ 

11 

16 ’ 

para 1 
para 2 

15 

16 ’ 

para 3 

1 

para x 



0 , 

x < 1, 
x < 2, 
x < 3, 
x < 4, 

4. 


_5_ _ 3 
16 “ 8 


J 


A menudo es util ver una distribution de probabilidad en forma grafica. Se 
pueden graficar los puntos (x, f(x)) del ejemplo 3.9 para obtener la figura 3.1. A1 
unir los puntos al eje x, ya sea con una linea punteada o con una solida, obtenemos 
lo que, por lo general, se denomina como grafica de barras. La figura 3.1 permite 
ver facilmente que valores de X tienen mas probabilidad de ocurrencia, y tambien 
indica, en este caso, una situation perfectamente simetrica. 

En vez de graficar los puntos ( x , /( x )), mas a menudo construimos rectangulos, 
como en la figura 3.2. Aquf los rectangulos se construyen de manera que sus bases 
de igual ancho se centren en cada valor x, y sus alturas sean iguales a las probabi- 
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f(x) 


6/16 

5/16 

4/16 

3/16 

2/16 

1/16 


f 

0 




4 


x 


Figura 3.1: Grafica de barras. 


m 

6/16 

5/16 

4/16 

3/16 

2/16 

1/16 


0 1 2 


x 

3 4 


Figura 3.2: Histograma de probabilidad. 


lidades correspondientes dadas por f(x). Las bases se construyen de forma tal que 
no dejen espacios entre los rectangulos. La figura 3.2 se denomina histograma de 
probabilidad. 

En la figura 3.2 como cada base tiene ancho unitario, P(X = x ) es igual al area 
del rectangulo centrado en x. Incluso si las bases no fueran de ancho unitario, po- 
drfamos ajustar las alturas de los rectangulos para que las areas tuvieran probabi- 
lidades iguales a X de tomar cualquiera de sus valores x. Este concepto de utilizar 
areas para representar probabilidades es necesario para nuestra consideration de la 
distribution de probabilidad de una variable aleatoria continua. 

La grafica de la distribution acumulada del ejemplo 3.9, que aparece como una 
funcion escalonada en la figura 3.3, se obtiene al graficar los puntos (x, F{ x)). 

Ciertas distribuciones de probabilidad se aplican a mas de una situation ffsica. 
La distribution de probabilidad del ejemplo 3.9 tambien se aplica a la variable alea- 
toria Y, donde Y es el numero de caras cuando se lanza 4 veces una moneda, o a la 
variable aleatoria W, donde W es el numero de cartas rojas que resultan cuando se 
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F(x) 

1 

3/4 


1/2 


1/4 


i 



T 

i 

i 


X 

2 3 4 


Figura 3.3: Distribution acumulada discreta. 


sacan sucesivamente 4 cartas al azar, de una baraja con el reemplazo de cada carta y 
barajando antes de sacar la siguiente. En el capitulo 5 se consideraran distribuciones 
discretas especiales que se aplican a diversas situaciones experimentales. 


3.3 Distribuciones continuas de probabilidad 

Una variable aleatoria continua tiene una probabilidad cero de tomar exactamente 
cualquiera de sus valores. En consecuencia, su distribution de probabilidad no se 
puede dar en forma tabular. En un principio esto pareceria sorprendente; no obstan- 
te, se vuelve mas convincente si consideramos un ejemplo especifico. Consideremos 
una variable aleatoria cuyos valores son las alturas de toda la gente mayor de 21 
anos de edad. Entre cualesquiera dos valores, digamos 163.5 y 164.5 centimetros, o 
incluso entre 163.99 y 164.01 centimetros, hay un numero infinito de alturas, una 
de las cuales es 164 centimetros. Es remota la probabilidad de seleccionar al azar a 
alguien que tenga exactamente 164 centimetros de estatura y no sea del conjunto 
infinitamente grande de estaturas tan cercanas a 164 centimetros, que humana- 
mente no es posible medir la diferencia; por ello, asignamos una probabilidad cero 
a tal evento. Este no es el caso, sin embargo, si nos referimos a la probabilidad de 
seleccionar a una persona que, al menos, mida 163 centimetros pero no mas de 165 
centimetros de estatura. Tratamos ahora con un intervalo en vez de un valor pun- 
tual de nuestra variable aleatoria. 

Trataremos el calculo de probabilidades para varios intervalos de variables alea- 
torias continuas como P(a < X <b), P(W > c), etcetera. Observe que cuando X es 
continua, 


P(a < X < b) = P(a < X < b) + P(X = b) = P{a < X < b). 

Es decir, no importa si incluimos o no un extremo del intervalo. Esto no es cierto, 
sin embargo, cuando X es discreta. 

Aunque la distribution de probabilidad de una variable aleatoria continua no 
se puede representar de forma tabular, si se establece como una formula, la cual 
necesariamente sera funcion de los valores numericos de la variable aleatoria con- 
tinua X y como tal se representara mediante la notation funcional f(x). Al tratar 
con variables continuas, /( x), por lo general, se llama funcion de densidad de 
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Figura 3.4: Funciones de densidad tfpicas. 


probabilidad, o simplemente funcion de densidad de X. Como X se define 
sobre un espacio muestral continuo, es posible que /( x) tenga un numero finito de 
discontinuidades. Sin embargo, la mayorfa de las funciones de densidad que tienen 
aplicaciones practicas en el analisis de datos estadisticos son continuas y sus gra- 
ficas pueden tomar cualquiera de varias formas, algunas de las cuales se presentan 
en la figura 3.4. Como se utilizaran areas para representar probabilidades y estas 
son valores numericos positivos, la funcion de densidad debe estar completamente 
por arriba del eje x. 

Una funcion de densidad de probabilidad se construye de manera que el area 
bajo su curva limitada por el eje x sea igual a 1, cuando se calcula en el rango de 
X para el que se define /( x). Si este rango de X es un intervalo finito, siempre es 
posible extender el intervalo para incluir a todo el conjunto de numeros reales al 
definir f(x) como cero en todos los puntos de las partes extendidas del intervalo. 
En la figura 3.5, la probabilidad de que X tome un valor entre a y b es igual al area 
sombreada bajo la funcion de densidad entre las ordenadas en x = a y x = b, y del 
calculo integral esta dada por 

P(a < X < b) = f f(x) dx. 

J a 



Figura 3.5: P(a < X < b). 
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Definicion 3.6: 


Ejemplo 3.11: 


Solucion: 

Definicion 3.7: 


Ejemplo 3.12:1 
Solucion: 


La funcion f(x) es una funcion de densidad de probabilidad (fdp) para la 
variable aleatoria continua X , definida en el conjunto de numeros reales R , si 

1. f(x) > 0, para toda x £ R. 

2 - f( x ) dx = 1. 

3. P(a < X < b) = f(x) dx. 


Suponga que el error en la temperatura de reaccion, en °C, para un experimento de 
laboratorio controlado, es una variable aleatoria continua X , que tiene la funcion 
de densidad de probabilidad 


/(*) 


2^, -1 < x < 2, 

0, en cualquier otro caso. 


a) Verifique la condicion 2 de la definicion 3.6. 

b) Encuentre P(0 < X < 1). 


°) f-oof ( x ) dx = f—i X dx = if l-i = I + I = L 

b) P(0<X<l) = f 0 1 ^dx= ^[ = |. 


J 


La funcion de distribucion acumulada P(x) de una variable aleatoria conti- 
nua X con funcion de densidad /( x) es 

F(x) = P(X < x) = / f(t) dt, para — oo < x < oo. 

J — OO 


Como consecuencia inmediata de la definicion 3.7 se escriben los dos resultados, 
P(a < X < b) = F{b) - F(a), y f( x ) = ^M, 


si existe la derivada. 


Para la funcion de densidad del ejemplo 3.11 encuentre F(x), y utilicela para evaluar 

P(0 < X < 1). 

Para — 1 < x < 2, 


/ x 1 -x .2 j-3 x 

J {t)dt = Ll dt= 9 _ 


X 3 + 1 


9 


Por lo tanto, 


F(x) 


0, x < —1, 

2 ^ 1 , — 1 < X <2, 

1 , X > 2. 
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La distribution acumulada F(x) se expresa de forma grafica en la figura 3.6. Asi, 

P(0 < X < 1) = F(l) - F(0) = ? - i = i, 

que concuerda con el resultado que se obtuvo al utilizar la funcion de densidad en el 
ejemplo 3.11. 


f(x) 



Figura 3.6: Funcion de distribution acumulada continua. 


Ejemplo 3.13:1 El Departamento de Energia (de) asigna proyectos mediante licitacion y, por lo 
general, estima lo que deberfa ser una licitacion razonable. Sea b el estimado. El de 
determino que la funcion de densidad de la licitacion ganadora (baja) es 

| b<y < 2b, 
en cualquier otro caso. 

Encuentre F(y) y utili'cela para determinar la probabilidad de que la licitacion gana- 
dora sea menor que la estimation b preliminar del de. 

Solucion: Para < y < 26, 



De manera que 



5 1 
8 b 


y 

2b/5 


5y _ 1 

8 b 4' 


F{y) = ' 


0, 

5y 

8b 

1, 


y < I 6 - 

j, \b<y<2b , 
V > 2b. 


Para determinar la probabilidad de que la licitacion ganadora sea menor que la es- 
timation b preliminar de la licitacion, tenemos 

5 1 3 


P(Y <b) = F(b) 
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Ej ercicios 


3.1 Clasifique las siguientes variables aleatorias como 
discretas o continuas: 

X: el numero de accidentes automovilfsticos por 
ano en Virginia. 

Y: el tiempo para jugar 18 hoyos de golf. 

M: la cantidad de leche que una vaca especffica 
produce anualmente. 


3.7 El numero total de horas, medidas en unidades de 
100 horas, que una familia utiliza una aspiradora en un 
periodo de un ano es una variable aleatoria continua X 
que tiene la funcion de densidad 


/(*) 


x, 0 < x < 1, 

2 — x, 1 < x < 2, 

0, en cualquier otro caso. 


N: el numero de huevos que una gallina pone 
mensualmente. 

P: el numero de permisos para construction que 
emiten cada mes en una ciudad. 

Q: el peso del grano producido por acre. 


Encuentre la probabilidad de que en un periodo de un 
ano, una familia utilice su aspiradora 

o) menos de 120 horas; 
b) entre 50 y 100 horas. 


3.2 Un embarque foraneo de cinco automoviles ex- 
tranjeros contiene 2 que tienen ligeras manchas de pin- 
tura. Si una agenda recibe 3 de estos automoviles al 
azar, liste los elementos del espacio muestral S con 
las letras B y N para “manchado” y “sin mancha”, 
respectivamente; luego a cada punto muestral asigne 
un valor x de la variable aleatoria X que representa 
el numero de automoviles que la agenda compra con 
manchas de pintura. 

3.3 Sea W la variable aleatoria que da el numero de 
caras menos el numero de cruces en tres lanzamientos 
de una moneda. Liste los elementos del espacio mues- 
tral S para los tres lanzamientos de la moneda y asigne 
un valor w de W a cada punto muestral. 

3.4 Se lanza una moneda hasta que ocurren 3 caras 
sucesivamente. Liste solo aquellos elementos del espa- 
cio muestral que requieren 6 o menos lanzamientos. 
^Es un espacio muestral discreto? Explique. 


3.8 Encuentre la distribution de probabilidad de la va- 
riable aleatoria W del ejercicio 3.3; suponga que la mone- 
da esta cargada de manera que una cara tenga doble de 
probabilidad de ocurrir que una cruz. 

3.9 La proportion de personas que responden a cierta 
encuesta enviada por correo es una variable aleatoria 
continua X que tiene la funcion de densidad 

2^^, 0 < x < 1, 

0, en cualquier otro caso. 

a) Muestre que P(0 < X < 1) = 1. 

b) Encuentre la probabilidad de que mas de 1/4 pero 
menos de 1/2 de las personas contactadas respon- 
dan a este tipo de encuesta. 

3.10 Encuentre una formula para la distribution de 
probabilidad de la variable aleatoria X que represente 
el resultado cuando se lanza una vez un solo dado. 


3.5 Determine el valor c de modo que cada una de las 
siguientes funciones sirva como distribution de proba- 
bilidad de la variable aleatoria discreta X\ 

a ) f(x) = c(x 2 + 4), para x = 0, 1, 2, 3; 

b) f(x) = cQ ( 3 f J , para x = 0, 1, 2. 


3.11 Un embarque de 7 televisores contiene 2 unida- 
des defectuosas. Un hotel realiza una compra azar de 
3 de los televisores. Si x es el numero unidades defec- 
tuosas que compra el hotel, encuentre la distribution 
de probabilidad de X. Exprese los resultados de forma 
grafica como un histograma de probabilidad. 


3.6 La vida util, en dias, para frascos de cierta medi- 
cina de prescription es una variable aleatoria que tiene 
la funcion de densidad 


/(z) 


20,000 
(x+100) 3 5 

o, 


x > 0, 

en cualquier otro caso. 


Encuentre la probabilidad de que un frasco de esta 
medicina tenga una vida util de 

a) al menos 200 dias; 

b) cualquier lapso entre 80 a 120 dias. 


3.12 Una firma de inversiones ofrece a sus clientes 
bonos municipales que vencen despues de varios anos. 
Dado que la funcion de distribution acurnulada de T, 
el numero de anos de vencimiento para un bono que se 
elige al azar, es 


m = 


0, 

t 

< 1, 


1 

4 ’ 

l 

< t < 

3, 

1 

2 ’ 

3 

< t < 

5, 

3 

4 ’ 

5 

< t < 

7, 

i, 

t 

> 7. 
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encuentre 

a) P(T = 5); 

b) P(T > 3); 

c) P(1.4 < T< 6). 

3.13 La distribution de probabilidad de X, el numero 
de imperfecciones por 10 metros de una tela sintetica 
en rollos continuos de ancho uniforme, esta dada por 


X 

0 

1 

2 

3 

4 

f{x) 

0.41 

0.37 

0.16 

0.05 

0.01 


Construya la funcion de distribution acumulada de X. 


3.21 Considere la funcion de densidad 

r, s _ (ky/x, 0 < x < 1 , 

\0, en cualquier otro caso. 

a) Evalue k. 

b) Encuentre F( x) y utilfcela para evaluar 

P(0.3 < X < 0.6). 

3.22 De una baraja se sacan tres cartas sucesivamen- 
te sin reemplazo. Encuentre la distribution de probabi- 
lidad para el numero de espadas. 


3.14 El tiempo de espera, en horas, entre conductores 
sucesivos que exceden los lmrites de velocidad detecta- 
dos por un radar es una variable aleatoria continua con 
distribution acumulada 



Encuentre la probabilidad de esperar menos de 12 mi- 
nutos entre conductores sucesivos que exceden los lfmi- 
tes de velocidad 

a) usando la funcion de distribution acumulada de X; 

b) utilizando la funcion de densidad de probabilidad 
de X. 

3.15 Encuentre la funcion de distribution acumulada 
de la variable aleatoria X que represente el numero de 
unidades defectuosas en el ejercicio 3.11. Con F(x), 
encuentre 

a) P(X = 1); 

b) P( 0 < X < 2). 

3.16 Construya una grafica de la funcion de distribu- 
tion acumulada del ejercicio 3.15. 

3.17 Una variable aleatoria continua X que puede 
tomar valores entre x = 1 y x = 3 tiene una funcion de 
densidad dada por f(x) = 1/2. 

a) Muestre que el area bajo la curva es igual a 1. 

b) Encuentre P( 2 < X < 2.5). 

c) Encuentre P(X < 1.6). 

3.18 Una variable aleatoria continua X que puede 
tomar valores entre x = 2 y x = 5 tiene una funcion de 
densidad dada por /( x) = 2(1 + x)/27. Encuentre 

a) P(X < 4); 

b) P( 3 < X < 4). 

3.19 Para la funcion de densidad del ejercicio 3.17, 
encuentre F(x). Utilfcela para evaluar P( 2 < X < 2.5). 

3.20 Para la funcion de densidad del ejercicio 3.18, 
encuentre F(x ), y utilfcela para evaluar P(3 < X < 4). 


3.23 Encuentre la funcion de distribution acumula- 
da de la variable aleatoria W del ejercicio 3.8. Usando 
F(w), encuentre 

a) P{W> 0); 

b) P(- 1 < W< 3). 

3.24 Encuentre la distribution de probabilidad para 
el numero de discos compactos de jazz, cuando se selec- 
cionan cuatro CD al azar de una coleccion que consiste 
en cinco de jazz, dos de musica clasica y tres de rock. 
Exprese sus resultados utilizando una formula. 

3.25 Se seleccionan aleatoriamente 3 monedas sin re- 
emplazo de una caja que contiene 4 de diez centavos y 
2 de cinco centavos. Encuentre la distribution de pro- 
babilidad para el total T de las tres monedas. Exprese 
la distribution de probabilidad de forma grafica como 
un histograma de probabilidad. 

3.26 Se sacan 3 bolas sucesivamente de una caja que 
contiene 4 bolas negras y 2 verdes; cada bola se re- 
gresa a la caja antes de sacar siguiente. Encuentre la 
distribution de probabilidad para el numero de bolas 
verdes. 

3.27 El tiempo de operation antes del fallo, en horas, 
de una pieza importante de equipo electronico que se 
utiliza para la fabrication de un reproductor de DVD 
tiene la funcion de densidad 

= f 2555 exp(-x/2000), a: > 0, 

l0, x < 0. 

a) Encuentre F(x). 

b) Determine la probabilidad de que el componente (y, 
por lo tanto, el reproductor de dvd) funcionen du- 
rante mas de 1000 horas antes de que necesite reem- 
plazarse el componente. 

c) Determine la probabilidad de que el componente fa- 
lie antes de 2000 horas. 

3.28 Un productor de cereales esta consciente de que 
en la caja el peso del producto vari'a ligeramente entre 
una caja y otra. De hecho, datos historicos suficientes 
han permitido determinar la funcion de densidad que 
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describe la estructura de probabilidad para el peso (en 
onzas). Entonces, si X es el peso, en onzas, de la varia- 
ble aleatoria, la funcion de densidad se describe como 


f( x ) 


§, 23.75 < x < 26.25, 

0, en cualquier otro caso. 


a) Verifique que sea una funcion de densidad valida. 

b) Determine la probabilidad de que el peso sea menor 
que 24 onzas. 

c) La companfa busca que un peso mayor que 26 onzas 
sea un caso extraordinariamente raro. ^Cual sera la 
probabilidad de que este “caso extraordinariamente 
raro” en verdad ocurra? 


3.29 Un factor importante en el combustible soli- 
do para proyectiles es la distribution del tamano de 
las partfculas. Ocurren problemas significativos cuan- 
do las partfculas son demasiado grandes. A partir de 
datos de production historicos, se determino que la dis- 
tribution del tamano (en micras) de las partfculas se 
caracteriza por 

tt x \ = f 3x ~ 4 ’ x>1 ’ 

\0, en cualquier otro caso. 

a) Verifique que sea una funcion de densidad valida. 

b) Evalue F{x). 

c) ^Cual es la probabilidad de que una partfcula toma- 
da al azar del combustible fabricado sea mayor que 
4 micras. 


3.30 En los sistemas cientfficos las medidas siempre 
estan sujetas a variation, algunas veces mas que otras. 
Hay muchas estructuras para los errores de medicion 
y los estadisticos pasan una gran cantidad de tiempo 
modelando tales errores. Suponga que el error de me- 
dicion X de cierta cantidad ffsica esta determinado por 
la funcion de densidad 



k ( 3 - x 2 ), 
0 , 


-1 < x < 1 , 
en cualquier otro caso. 


a) Determine k que representa f(x), una funcion de 
densidad valida. 

b) Encuentre la probabilidad de que un error aleatorio 
en la medicion sea menor que 1/2. 

c) Para esta medida especffica, resulta indeseable si la 
magnitud del error (es decir, |i|) excede 0.8. ^.Cual 
es la probabilidad de que esto ocurra? 


3.31 Con base en pruebas de gran alcance, el fabri- 
cate de una lavadora determino que el tiempo Y (en 
anos) antes de que se requiera una reparation mayor se 
obtiene de la funcion de densidad de probabilidad 


fix) 



y> 0 , 

en cualquier otro caso. 


a) Los crfticos, en efecto, considerarfan que el producto 
es una ganga si es improbable que requiera una re- 
paration mayor antes del sexto ano. Comente sobre 
esto determinando P(Y > 6). 

b) ^Cual es la probabilidad de que ocurra una repara- 
tion mayor durante el primer ano? 

3.32 La proportion del presupuesto para cierta clase 
de companfa industrial que se asigna a controles am- 
bientales y de contamination ha estado bajo escrutinio. 
Un proyecto de recopilacion de datos determina que la 
distribution de tales proporciones esta dada por 

/( ) = /sa-y) 4 , °<y<^ 

(0, en cualquier otro caso. 

a) Verifique que la densidad anterior sea valida. 

b) ^Cual es la probabilidad de que una companfa ele- 
gida al azar gaste menos del 10% de su presupuesto 
en controles ambientales y de contamination? 

c) ^Cual es la probabilidad de que una companfa se- 
leccionada al azar gaste mas del 50% en controles 
ambientales y de la contamination? 


3.33 Suponga que un tipo especial de empresa de 
procesamiento de datos pequena esta tan especializada 
que algunas tienen dificultades para obtener utilidades 
durante su primer ano de operation. La funcion de den- 
sidad de probabilidad que caracteriza la proportion Y 
que obtiene utilidades esta dada por 


/<*) = { 0 %4(1 ” s) ’’ 


0 < 2 / < 1 , 

en cualquier otro caso. 


a) ^Cual es el valor de k que hace de la anterior una 
funcion de densidad valida? 

b ) Encuentre la probabilidad de que al menos el 50% de 
las empresas tenga utilidades durante el primer ano. 

c) Encuentre la probabilidad de que al menos 80% de 
las empresas tenga utilidades durante el primer ano. 


3.34 Los tubos de magnetron se producen en una lf- 
nea de ensamble automatizada. Periodicamente se uti- 
liza un plan de muestreo para evaluar la calidad en la 
longitud de los tubos; no obstante, dicha medida esta 
sujeta a incertidumbre. Se considera que la probabi- 
lidad de que un tubo elegido al azar cumpla con las 
especificaciones de longitud es 0.99. Se utiliza un plan 
de muestreo en el cual se mide la longitud de 5 tubos 
elegidos al azar. 

a) Muestre que la funcion de probabilidad de Y, el tubo 
de cada 5 que cumple con las especificaciones de 
longitud, esta dado por la siguiente funcion de pro- 
babilidad discreta 

/(y ) = ^5^ (a99)! '( 0 ' 01 ) 5 " !/ ’ 

para y = 0, 1, 2, 3, 4, 5. 
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b ) Suponga que las selecciones aleatorias se toman de 
la lfnea y 3 no cumplen con las especificaciones. Uti- 
lice la f{x) anterior ya sea para apoyar o para re- 
futar la conjetura de que la probabilidad de un solo 
tubo cumpla con las especificaciones es 0.99. 

3.35 Suponga que a partir de gran cantidad de datos 
historicos se sabe que X, el numero de automoviles que 
llegan a una intersection especffica durante un periodo 
de 20 segundos, esta determinada por la siguiente fun- 
cion de probabilidad discreta 

f{x) = e~ 6 ^— , x = 0,l,2, .... 
x\ 

a ) Encuentre la probabilidad de que en un periodo es- 
pedfico de 20 segundos, mas de 8 automoviles lle- 
guen a la intersection. 


b) Encuentre la probabilidad de que solo lleguen 2. 

3.36 En una tarea de laboratorio, cuando el equipo 
esta operando la funcion de densidad del resultado ob- 
servado, X, es 

ft x \ = | 2 ( 1 - x )> 0 < x < 1, 

\0, en cualquier caso. 

a) Calcule P(X < 1/3). 

b) ^Cual es la probabilidad de que X excedera 0.5? 

c) Dado que X > 0.5, £cual es la probabilidad de que 
X sera menor que 0.75? 


3.4 Distribuciones de probabilidad conjunta 

En las secciones anteriores nuestro estudio de variables aleatorias y sus distribu- 
ciones de probabilidad se restringio a espacios muestrales unidimensionales, donde 
registramos los resultados de un experimento como los valores que toma una sola 
variable aleatoria. No obstante, habra situaciones en que encontraremos deseable 
registrar los resultados simultaneos de diversas variables aleatorias. Por ejcmplo, 
podrfamos rnedir la cantidad de precipitado P y volumen V de gas liberado en un 
experimento quimico controlado, que dan lugar a un espacio muestral bidimensional 
que consiste en los resultados (p, v) ; o podrfamos interesarnos en la dureza H y en la 
resistencia a la tension T de cobre estirado en frfo que conducen a los resultados (h, 
t). En un estudio para determinar la probabilidad de exito en la universidad, que se 
basa en los datos del nivel preparatoria, se puede utilizar un espacio muestral tridi- 
mensional y registrar, para cada individuo, su calificacion de la prueba de aptitudes, 
su clasificacion de clase en preparatoria y el promedio en puntos al final del primer 
ano en la universidad. 

Si X y Y son dos variables aleatorias discretas, la distribution de probabilidad 
para sus ocurrencias simultaneas se representa mediante una funcion con valores 
f(x, y ), para cualquier par de valores (x, y ) dentro del rango de las variables alea- 
torias X y Y. Se acostumbra referirse a esta funcion como la distribution de pro- 
babilidad conjunta de X y Y. 

De aquf, en el caso discreto, 

/ (x, y) = P(X = x, Y= y); 

es decir, los valores f(x , y) dan la probabilidad de que ocurran al mismo tiernpo los 
resultados x y y. Por ejemplo, si se le va a dar servicio a un televisor, y X representa 
la edad de la unidad al ano mas cercano y Y representa el numero de bulbos defec- 
tuosos en el televisor, entonces /( 5, 3) es la probabilidad de que el televisor tenga 
5 anos de edad y necesite 3 bulbos nuevos. 
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Definition 3.8: 


Ejemplo 3.14: 


Solucion: 


La funcion f(x,y ) es una distribucion de probabilidad conjunta o funcion de 
masa de probabilidad de las variables aleatorias discretas X y Y, si 

1. f(x,y) > 0 para toda (x,y), 


2 • EE/O^y) = i, 

x y 


3. P(X = x,Y = y) = f(x,y). 


Para cualquier region A en el piano xy , P[(X, Y) £ A] 

= EE f{x,y)- 

A 


Se seleccionan al azar 2 repuestos para un boli'grafo de una caja que contiene 3 re- 
puestos azules, 2 rojos y 3 verdes. Si X es el numero de repuestos azules y Y es el 
numero de repuestos rojos seleccionados, encuentre 

a) la funcion de probabilidad conjunta f(x, y), 

b) P[(X, Y) £ A], donde A es la region {(*, y)\x + y < 1}. 

a) Los posibles pares de valores (x, y) son (0, 0), (0, 1), (1, 0), (1, 1), (0, 2) y 
(2, 0). Asi, /(0,1), por ejemplo, representa la probabilidad de que se seleccionen 
un repuesto rojo y uno verde. El numero total de formas igualmente probables 
de seleccionar cualesquiera 2 repuestos de los 8 es (®) = 28. El numero de for- 
mas de seleccionar 1 rojo de 2 repuestos rojos y 1 verde de 3 repuestos verdes 
es Q ( 1 ) = 6. De aqui, /( 0, 1) = 6/28 = 3/14. Calculos similares dan las proba- 
bilidades para los otros casos, que se presentan en la tabla 3.1. Observa que las 
probabilidades suman 1. En el capitulo 4 quedara claro que la distribution de pro- 
babilidad conjunta de la tabla 3.1 se puede representar con la formula 

/SW2W 3 i 

f(x,y)= 

para x = 0, 1, 2; y = 0, 1, 2; y 0 < x + y < 2. 

b) P[(X, Y)eA} = P(X + Y< 1) = /( 0, 0) + /( 0, 1) + /( 1, 0) 

3 3 9 9 

_ 28 + 14 + 28 _ 14' 


Tabla 3.1: Distribution de probabilidad conjunta para el ejemplo 3.14 


f(x,y) 

X 

Totales 
por renglon 

0 

l 

2 


n 

3 

9 

3 

15 



28 

28 

28 

28 

y 

1 

3 

14 

3 

14 

0 

3 

7 


2 

1 

28 

0 

0 

1 

28 

Totales por columna 

5 

14 

15 

28 

3 

28 

l 


Cuando X y Y son variables aleatorias continuas, la funcion de densidad 
conjunta /( x, y) es una superficie sobre el piano xy , y P[(X, Y) £ A], donde A es 
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Definicion 3.9: 


Ejemplo 3.15: 


Solucion: 


cualquier region en el piano xy , es igual al volumen del cilindro recto limitado por 
la base A y la superficie. 

La funcion f(x. y ) es una funcion de densidad conjunta de las variables alea- 
torias continuas X y Y si 

1. f(x,y) > 0, para toda (x,y), 

2. fZo /Ou y) dx d V = 1 ’ 

3. P[(X,Y) G A] = f f A f(x<y) dx dy, 
para cualquier region A en el piano xy. 


Una fabrica de dulces distribuye cajas de chocolates con un surtido de cremas, chi- 
closos y nueces cubiertas con chocolate claro y oscuro. Para una caja seleccionada al 
azar, sean X y Y, respectivamente, las proporciones de chocolates claro y oscuro que 
son cremas y suponga que la funcion de densidad conjunta es 


f(x,y) 


| (2a; + 3 y), 0 < x < 1,0 < y < 1, 

0, en cualquier otro caso. 


a) 

b) 

a) 


b) 


Verifique la condicion 2 de la definicion 3.9. 

Encuentre P[(X, Y € = A], donde A = {(x, y)|0 < x <\, \ < y < \ }. 



P[{X,Y) £ A] = P(0 < X < < Y <-) 


fl/2 /*l/2 9 rl/2 /o t 2 

/ / -(2x + 3 y)dxdy= ( — 

J 1/4 Jo h Ji/ 4 \ 5 


' 1/ 4 

j-1/2 

J 1/4 

1 

10 


r 

l tO 

1 

6 xy\ 

J 1/4: 

V 5 

+ —J 


1 

10 + 

1 3 

2 + 4 


3 y 

5 


dy = 

1 
4 


_ y _ 

10 


3 

16 


V 

10 

13 

= 160 


1/2 

1/4 


[•— 1/2 


dy 


x—0 


J 


Dada la distribucion de probabilidad conjunta f(x, y) de las variables aleatorias 
discretas X y E, la distribucion de probabilidad p(x) de X sola se obtiene al sumar 
f(x, y) sobre los valores de Y. De manera similar, la distribucion de probabilidad 
h(y) de Y sola se obtiene al sumar f(x, y) sobre los valores de X. Definimos g(x) y h(y) 
como distribuciones marginales de X y Y, respectivamente. Cuando X y Y son 
variables aleatorias continuas, las sumatorias se reemplazan por integrales. Ahora 
podemos establecer la siguiente definicion general. 
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Definicion 3.10: 


Las distribuciones marginales de X sola y de Y sola son 

9(x) = '^2f(x,y) y h{y) = ^ f{x,y), 
y x 

Para el caso discreto, y 

/ oo /*oo 

f(x,y) dy y h(y)= f{x,y) dx, 

-oo J — OO 

para el caso continuo. 


El termino marginal se utiliza aqui' porque, en el caso discreto, los valores de 
g(x) y h(y) son precisamente los totales marginales de las columnas y los renglones 
respectivos, cuando los valores de f(x, y) se muestran en una tabla rectangular. 


Ejemplo 3.16:1 Muestre que los totales de columnas y renglones de la tabla 3.1 dan las distribucio- 
nes marginales de X sola y Y sola. 

Solucion: Para la variable aleatoria X, vemos que 

fl (0) = /(0,0) + /(0,l) + /(0,2) 
fl (l) = /(l,0) + /(l,l) + /(l,2) 
y 

g{2) = /( 2, 0) + /( 2, 1) + /( 2, 2) = 1 + 0 + 0 = 

que son precisamente los totales por columna de la tabla 3.1. De manera similar po- 
demos mostrar que los valores de h(y) estan dados por los totales de los renglones. 
En forma tabular, estas distribuciones marginales se pueden escribir como sigue: 


X 

0 

l 

2 

y 

0 

l 

2 

9(x) 

5 

14 

15 

28 

5 

28 

Hv) 

15 

28 

5 

7 

1 

28 


_3_ _3_ 1_ _ 5_ 

28 + 14 + 28 _ 14’ 
9 3 _ 15 

28 + 14 + ~ 28’ 


Ejemplo 3.17:1 Encuentre g(x) y h(y) para la funcion de densidad conjunta del ejemplo 3.15. 
Solucion: Por definicion, 


/ OO 

f(x , y) dy 

-OO 


s> 


3 y) dy = 




y = i 


y = o 


Ax + 3 
5 


para 0 < x < 1, y g{x) — 0 en cualquier otro caso. De manera similar, 

h(y)=J™ f(x,y)dx= J^-px + Sy) dx = 2(1 + 3y) , 

para 0 < y < 1 , y h(y) = 0 en cualquier otro caso. 

El hecho de que las distribuciones marginales g(x) y h(y) sean en realidad las 
distribuciones de probabilidad de las variables individuales X y Y solas se puede 
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verificar al mostrar que se satisfacen las condiciones de la definition 3.4 o de la de- 
finition 3.6. Por ejemplo, en el caso continuo 

/ oo roo /*00 

g{x) dx= / f(x, y ) dy dx = 1, 

-oo J — oo J — oo 


y 


P(a < X < b) = P(a < X < b, — oo < Y < oo) 


nb roo nb 

/ / f( x ,y)dydx= / g(x) dx. 

J a J — oo J a 


En la section 3.1 establecimos que el valor x de la variable aleatoria X representa 
un evento que es un subconjunto del espacio muestral. Si utilizamos la definition de 
probabilidad conditional que se establecio en el capftulo 2, 


P{B\A) 


p(AnB) 

P{A) 


P{A) > 0, 


donde Ay B son ahora los eventos definidos por X = x y Y = y, respectivamente, 
entonces, 


P{Y = y \X = x) 


P(X = x,Y = y) 
P(X = x) 


f(x,y) 

9( x ) 


g(x) > 0, 


donde X y Y son variables aleatorias discretas. 

No es diffcil mostrar que la funcion f(x, y)/g (x), que es estrictamente una 
funcion dc y con x fija, satisface todas las condiciones dc una distribution de proba- 
bilidad. Esto tambien es cierto cuando /( x, y) y g(x) son la densidad conjunta y la 
distribution marginal, respectivamente, de variables aleatorias continuas. Como re- 
sultado es muy importante que utilicemos el tipo especial de distribution de la forma 
/( x, y)/ g(x) con la finalidad de ser capaces de calcular probabilidades condicionales 
de manera eficaz. Este tipo de distribution se llama distribution de probabilidad 
condicional; la definition conditional es la siguiente. 


Definition 3.11: 


Sean X y Y dos variables aleatorias, discretas o continuas. La distribution con- 
dicional de la variable aleatoria Y. dado que X = x, es 


f{y\ x ) = ^ X ,' V ? , g{x) > o. 

sO) 


De manera similar, la distribution condicional de la vaiable aleatoria X , dado que 
Y= y, es 


f{x\y) 


f( x ,y) 

Kv) 


h{y) > o. 


Si deseamos encontrar la probabilidad de que la variable aleatoria discreta X 
caiga entre a y b cuando se sabe que la variable discreta Y = y, evaluamos 

P{a < X < b\Y = y) = f( x \v )> 

a<x<b 

donde la sumatoria se extiende a todos los valores de X entre a y b. Cuando X y Y 
son continuas, evaluamos 

P(a < X < b\Y = y) = ( f{x\y) dx. 
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Ejemplo 3.18:1 
Solucion: 


Ejemplo 3.19: 


Solucion: 


Con referenda al ejemplo 3.14, encuentre la distribution conditional de X , dado que 
Y = 1, y utilfcela para determinar P(X = 0|F = 1). 

Necesitamos encontrar f(x\y), donde y = 1. Primero, encontramos que 


M 1 ) - _ 14 + 14 + °~7' 

A 1 X = 0 

Ahora, 

f(x I 1 ) = = ^f(x,l), a: = 0,1, 2. 

Por lo tanto, 

1 

2 ’ 
1 

2’ 


y la distribution conditional de X, dado que Y = 1 

X 

0 12 

|1) 

“T I o - 

2 2 


Finalmente, 

P(X = 0|E = 1) = /(0|1) = 

Por lo tanto, si se sabe que 1 de los 2 repuestos seleccionados es rojo, tenemos una 
probabilidad igual a 1/2 de que el otro repuesto no sea azul. 


/( 0 | 1 ) = 
/( 1 | 1 ) = 
/( 2 | 1 ) = 


3 )/(0,l) = 
| ) /( 1 , 1 ) = 


/( 2 , 1 ) = 


3 

14 
3 

14 

( 0 ) = 0 , 


La densidad conjunta para las variables aleatorias ( X , Y), donde X es el cambio de 
temperatura unitario y Ees la proportion de desplazamiento espectral que produce 
cierta partfcula atomica es 


f(x,y) 


10 xy 2 , 0 < x < y < 1, 

0, en cualquier otro caso. 


a) Encuentre las densidades marginales g{x), h(y) y la densidad conditional 

f{y\x)- 

b ) Encuentre la probabilidad de que el espectro se desplace mas de la mitad de las 
observaciones totales, dado que la temperatura aumenta a 0.25 unidades. 

a) Por definition, 


/ OO nl 

f(x,y) dy= 10 xy 2 dy 

-OO J X 


10 , 
= Y xy " 


y = i 


= ^a:(l — a; 3 ), 0 < x < 1, 
o 


/ OO ny = 

f(x,y) dx= 10 xy 2 dx = 5x 2 y 2 \ x x Z V Q = by 4 , 
-oo J 0 


0 < y < 1. 
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Entonces, 


t , i A f{x,y) 10 xy 2 3 y 2 

f{ylx) = = = 73^’ 0 < x < 2/ < 1. 


c(l — a; 3 ) 1 — : 


b) Por lo tanto, 


p(y>± X = 0.25^) = ^ 2 f(y\x = 0.25 )dy 

-l 


1/2 1 - 0.25 3 dy 9' 


Ejemplo 3.20:1 Dada la funcion de densidad conjunta 


f s(l+3 y 2 

fix ' y) = o, 4 


■, 0 < x < 2, 0 < y < 1, 

en cualquier otro caso 


encuentre g(x), h(y), f(x\y), y evalue P(\ < X <\\Y = §). 
Solucion: Por definicion, 


g(x) = / f(x, y) dy = / 
■J—oo J 0 


1 *(1 + 3 y 2 ) 


dy 


xy xy " 

T + T 


y — 1 


y = o 


= -, 0 < a: < 2, 


%) = [ f(x,y) dx= f 

J—oo J 0 


x 2 3 x 2 y 2 


x=2 


x=0 


x{l + 3 y 2 ) 


1 + 3 y 2 


Por lo tanto, 


f(x\y) = 


f(x,y) x(l + 3y 2 )/ 4 x 




dx 


0 < y < 1. 


0 < x < 2, 


%) (1 + 3y 2 )/2 2’ 

r = lj = f 1/2 -dx = — . 
37 ./ 1/4 2 64 


Independencia estadfstica 

Si /( x | y) no depende de y , como en el caso del ejemplo 3.20, entonces f(x \ y) = g(x) 
y /( x, y) = g(x)h(y). La demostracion se tiene al sustituir 


/0,y) = f(x\y)h(y) 
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Definicion 3.12: 


Ejemplo 3.21:1 
Prueba: 


en la distribution marginal de X. Es decir, 


9(x) 



f( x i y) dy 



f{x\y)h{y) dy. 


Si / (x| y) no depende de y, escribimos 


/ OO 

h(y) dy. 

-OO 


Entonces, 


/ OO 

Kv) dy = 1 , 

-OO 

ya que h(y) es la funcion de densidad de probabilidad de Y. Por lo tanto, 
g{x) = f(x | y) y, entonces, /(x, y) = g(x)h{y). 


Deberia tener sentido para el lector que si f(x \ y) no depende de y, entonces, por 
supuesto, el resultado de la variable aleatoria Y no tiene impacto en el resultado de 
la variable aleatoria X. En otras palabras, decimos que X y Y son variables aleato- 
rias independientes. Ofrecemos ahora la siguiente definicion formal de independencia 
estadistica. 


Sean X y Y dos variables aleatoria, discretas o continuas, con distribution de 
probabilidad conjunta /(x, y) y distribuciones marginales g(x) y h(y), respectiva- 
mente. Se dice que las variables aleatorias X y Y son estadfsticamente indepen- 
diente si y solo si 

f(x, y) = g{x)h(y) 

para toda (x, y) dentro de sus rangos. 


Las variables aleatorias continuas del ejemplo 3.20 son estadfsticamente inde- 
pendientes, pues el producto de las dos distribuciones marginales da la funcion de 
densidad conjunta. Evidentemente este no es el caso; sin embargo, para las variables 
continuas del ejemplo 3.19. La comprobacion de la independencia estadistica de 
variables aleatorias discretas requiere una investigation mas profunda, ya que es 
posible que el producto de las distribuciones marginales sea igual a la distribution 
de probabilidad conjunta para algunas — aunque no para todas — de las combinacio- 
nes de (x, y). Si puede encontrar algun punto (x, y) para el que f(x , y) se define de 
manera que /(x, y) g(x)h(y ), las variables discretas lyYno son estadfsticamente 
independientes. 


Muestre que las variables aleatorias del ejemplo 3.14 no son estadfsticamente inde- 
pendientes. 

Consideremos el punto (0, 1). De la tabla 3.1 encontramos que las tres probabilida- 
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des /( 0 , 1 ), g( 0 ) y h( 1 ) son 



2 


_3_ _3_ 1_ _ 5_ 

28 + 14 + 28 “ 14’ 


M 0 ) = 


y — o 
2 



Mi) = ^/(M) 


Claramente 


/(o, i) ^ff(o)Mi) 


y, por lo tanto, X y Y no son estadfsticamente independicntes. 

Todas las definiciones anteriores respecto a dos variables aleatorias se pueden gene- 
ralizar al caso de n variables aleatorias. Sea f(x i, X 2 , . . . ,x n ) la funcion de probabi- 
lidad conjunta de las variables aleatorias X\, X 2 , ■ ■ ■ ,X n . La distribucion marginal 
de Xi, por ejemplo, es 



para el caso discreto, y 



para el caso continuo. Ahora obtenemos distribuciones marginales conjuntas 
como g(x\, X2), donde 

( Z) • ■ ■ Z)/^ 1 ,^ 2 , • • -,x n ), (caso discreto), 

“lo 3:71 00 

fZ • ■ • JZ f(zi,X2, ■ ■ ■ , x„) dx 3 dx4--- dx n , (caso continuo). 

Podemos considerar numerosas distribuciones condicionales. Por ejemplo, la distri- 
bucion condicional conjunta de X\, X2 y X 3 , dado que X4 = X4, X5 = x $, . . . , 
X n = x n . se escribe como 


f(x!,x 2 , ■ ■ ■ ,x n ) 
g(x 4 ,x 5, ...,x n ) 


f(x 1,X 2 ,X 3 \X4,X 5 , ...,x n ) 


donde g(x 4, X 5 , . . . , x n ) es la distribucion marginal conjunta de las variables aleato- 
rias X 4 , X 5 , . . . , X n . 

Una generalization de la definicion 3.12 nos llcva a la siguiente definicion para la 
independencia estadfstica nrutua de las variables X\, X 2 , . . . , X n . 
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Definition 3.13: 


Sean X±, X 2l ...,X n n variables aleatorias, discretas o continuas, con distribu- 
tion de probabilidad conjunta f{x\, X 2 , ■ ■ ■ , x n ) y distribuciones marginales /i(aq), 
f 2 (x 2 ), . . . , f n (x n ), respectivamente. Se dice que las variables aleatorias X±, X 2 , ■ ■ ■ , 

X n son estadfsticamente independientes mutuamente si y solo si 

f(x 1 , X2,..., x n ) = fl{xi)f 2 {x 2 )- ■ ■ fn{x n ) 
para toda (aq, x 2 , . . . , x n ) dentro de sus rangos. 


Ejemplo 3.22:1 Suponga que el tiempo de vida en anaquel, en anos, de cierto producto alimenticio 
perecedero empacado en cajas de carton es una variable aleatoria cuya funcion de 
densidad de probabilidad esta dada por 


f(x) 


e x , x > 0, 

0, en cualquier otro caso. 


Sean X\, X 2 , y X 3 los tiempos de vida en anaquel para tres de estas cajas seleccio- 
nadas de forma independiente y encuentre P(X 1 < 2, 1 < X 2 < 3, X 3 > 2). 

Solucion: Como las cajas se seleccionan de forma independiente, suponemos que las variables 
aleatorias X\, X 2 y X 3 son estadfsticamente independientes y que tienen la densidad 
de probabilidad conjunta 


f(xi,x 2 , *3) = /(aq)/( x 2 )f(x 3 ) = e~ Xl e~ X 2 e ~ X3 = 


para X\ > 0, x 2 > 0, X 3 > 0, y /( x±, x 2 , *3) = 0 en cualquier otro caso. De aquf 


P{X 1 < 2,1 <X 2 < 3,X 3 > 2) 



(1 - e -2 )(e -1 - e" 3 )e" 2 = 0.0372. 


J 


^Por que son importantes las caracterfsticas de las distribuciones 
de probabilidad y de donde vienen? 

En este texto es un punto importante ofrecer al lector una transition hacia los 
siguientes tres capftulos. En los ejemplos y los ejercicios hemos trabajados casos 
de situaciones practicas de ingenierfa y ciencias, en las cuales las distribuciones de 
probabilidad y sus propiedades se utilizan para resolver problemas importantes. 
Tales distribuciones de probabilidad, ya sean discretas o continuas, se presentaron 
mediante frases como “se sabe que”, “suponga que” o, incluso en ciertos casos, “la 
evidencia historica sugiere que” . Se trata de situaciones en las que la naturaleza de 
la distribution e incluso una estimation optima de la estructura de la probabilidad 
se pueden determinar utilizando datos historicos, datos tornados de estudios a largo 
plazo o hasta de grandes cantidades de datos planeados. El lector deberfa tener pre- 
sente la discusion del uso de histogramas del capitulo 1 y, por consiguiente, recordar 
la manera en que las distribuciones de frecuencias se estiman a partir de histogramas. 
Sin embargo, no todas las funciones de probabilidad y de densidad de probabilidad 
se derivan de cantidades grandes de datos historicos. Hay un numero significativo 
de situaciones en las cuales la naturaleza del escenario cientffico sugiere un tipo de 
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distribution. De hecho, varias de ellas se reflejan en los ejercicios de los caprtulos 2 
y 3. Cuando observaciones repetidas independientes son binarias por naturaleza (es 
decir, “defectuoso o no”, “funciona o no”, “alergico o no”) con observaciones de 0 
o 1, la distribution que cubre esta situation se llama distribution binomial y la 
funcion de probabilidad se conoce y se demostrara en sus principios en el capitulo 5. 
El ejercicio 3.34 de la section 3.3 y el ejercicio 3.82 constituyen ejemplos y son de 
otro tipo que el lector tambien deberfa reconocer. El escenario de una distribution 
continua en “tiempo de operation antes del fallo”, como en el ejercicio de repaso 
3.71 o en el ejercicio 3.27 dc la pagina 89, a menudo sugiere una clase de distribution 
denominada distribution exponential. Tales tipos de ejemplos son tan solo dos 
de los rnuchos llamados de distribuciones estandar que se utilizan ampliamente en 
situaciones del mundo real, ya que el escenario cienti'fico que ocasiona cada uno de 
ellos es reconocible y a menudo sucede en la practica. Los caprtulos 5 y 6 cubren 
muchos de tales tipos junto con alguna teoria inherente respecto de su uso. 

La segunda parte de esta trancision al material de los futuros capitulos ticne que 
ver con la notion de parametros de la poblacion o parametros distributivos. 
Recuerde que en el capitulo 1 virnos la necesidad de utilizar datos para ofrecer infor- 
mation sobre dichos parametros. Nos concentramos en estudiar las nociones de media 
y de varianza, y aprendimos sobre estas en el contexto de una poblacion. De hecho, 
la media y la varianza de la poblacion son faciles de encontrar a partir de la funcion 
de probabilidad para el caso discreto, o de la funcion de densidad de probabilidad 
para el caso continuo. Tales parametros y su importancia en la solution de niuchas 
clases de problemas de la vida real nos proporcionaran mucho del material de los 
capitulos 8 a 17. 


Ejercicios 


3.37 Determine el valor de c tal que las siguientes 
funciones representen distribuciones de probabilidad 
conjunta de las variables aleatorias A y Y\ 

a ) f{ x , V ) = cxy, P ara x = 1, 2, 3; y = 1, 2, 3; 

b) f(x, V ) = c\x - y |, para x = -2, 0, 2; y = -2, 3. 

3.38 Si la distribucion de probabilidad conjunta de A' 
y Y esta dada por 

f(x, y ) = P ara x = °> L 2, 3; y = 0, 1,2, 

encuentre 

a) P(X < 2, Y = 1); 

b) P( X > 2, y< 1); 

c) P( X > Y); 

d ) P{ X + Y= 4). 

3.39 De un saco de frutas que contiene 3 naranjas, 
2 manzanas y 3 platanos se selecciona una muestra 
aleatoria de 4 frutas. Si X es el nurnero de naranjas y 
Y el de manzanas en la muestra, encuentre 

a) la distribucion de probabilidad conjunta de A y Y; 


b) P[(X, Y) £ A], donde A es la region dada por {(a;, 
y) I x + y < 2}. 

3.40 Una vinateria de un particular opera instala- 
ciones para atencion en el automovil y para atender 
a quien llega caminando. En un dia seleccionado al 
azar, sean Ay Y, respectivamente, las proporciones 
del tiempo que se utiliza cada instalacion, y suponga 
que la funcion de densidad conjunta de estas variables 
aleatorias es 

/(*,,) = \l { * + 2y> - 0 s 1 s '• 0 s » s r 

fO, en cualquier otro caso. 

a) Encuentre la densidad marginal de A. 

b) Encuentre la densidad marginal de Y. 

c ) Encuentre la probabilidad de que las instalaciones 
para atencion en en el automovil esten ocupadas me- 
nos de la mitad del tiempo. 

3.41 LTna compania dulcera distribuye cajas de cho- 
colates con un surtido de cremas, chiclosos y envina- 
dos. Suponga que el peso de cada caja es 1 kilogramo; 
pero que los pesos individuals de cremas, chiclosos y 
envinados vari'an de una caja a otra. Para una caja se- 
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leccionada al azar, sean X y Xlos pesos de las cremas 
y los chiclosos, respectivamente, y suponga que la fun- 
cion de densidad conjunta de estas variables es 


f{x,y) 


24 xy, 0 < x < 1, 0 < y < 1, 
x + y < 1 , 

0, en cualquier otro caso. 


Tanto X corao Y tienen una escala tal que estan entre 
0 y 1. Suponga que X y Y tienen la densidad conjunta 


f(x,y) 


p 0 < x < y < 1, 

0, en cualquier otro caso. 


Encuentre P(X + Y > 1/2). 


a) Encuentre la probabilidad de que en una caja dada 
los envinados representen mas de la mitad del peso. 

b) Encuentre la densidad marginal para el peso de las 
cremas. 

c) Encuentre la probabilidad de que el peso de los chi- 
closos en una caja sea menor que 1/8 de kilogramo, 
si se sabe que las cremas constituyen 3/4 del peso. 

3.42 Sean X y Yla duration de la vida, en anos, de 
dos componentes en un sistema electronico. Si la fun- 
cion de densidad conjunta de estas variables es 


3.46 Con referenda al ejercicio 3.38, encuentre 

a) la distribution marginal de A'; 

b) la distribution marginal de Y. 

3.47 La cantidad de queroseno, en miles de litros, en 
un tanque al principio de cualquier dfa es una cantidad 
aleatoria Y, de la que una cantidad aleatoria X se ven- 
de durante el dfa. Suponga que el tanque no se abaste- 
ce durante el dfa, por lo que x < y, y suponga que la 
funcion de densidad conjunta de estas variables es 

fU y ) = [ 2 ’ 0 < x < y < 1, 

’ 0, en cualquier otro caso. 


{«; 


~(*+y\ X>0, y> 0 , 

en cualquier otro caso. 


f( x > y) = 

Encuentre P ( 0 < X < 1 | Y= 2). 


a) Determine si X y Y son independientes. 

b) Encuentre P(l/4 < A < 1/2 | Y= 3/4). 


3.43 Sea X el tiernpo de reaction, en segundos, a cier- 
to estimulante, y Y la temperatura (°F) a la cual cierta 
reaction comienza a suceder. Suponga que dos variales 
aleatorias X y Y tienen la densidad conjunta 

f( X ,y)=t 4X V> 0<X<1, 0<»<1, 

l_0, en cualquier otro caso. 

Encuentre 

a) P(0 < X < | y i < y < |); 

b) P(X < Y). 

3.44 Se supone que cada rueda trasera de un avion 
experimental se llena a una presion de 40 libras por 
pulgada cuadrada (psi). Sea X la presion real del aire 
para la rueda derecha y Y la presion real del aire de 
la rueda izquierda. Suponga que X y Y son variables 
aleatorias con la densidad conjunta 

{ k(x 2 + y 2 ), 30 < x < 50; 

30 < y < 50, 

0, en cualquier otro caso. 

a) Encuentre k. 

b) Encuentre P(30 < X < 40 y 40 < Y < 50). 

c) Encuentre la probabilidad de que ambas ruedas o 
esten insuficientemente llenas. 


3.48 Refierase al ejercicio 3.39 y encuentre 

a) f(y | 2) para todos los valores de y, 

b) P(Y = 0 | X = 2). 

3.49 Sea X el numero de veces que fallara cierta ma- 
quina de control numerico: 1, 2 0 3 veces en un dfa 
dado. Sea Y el numero de veces que se llama a un 
tecnico para una emergencia. Su distribution de proba- 
bilidad conjunta esta dada como 


f(.x,y) 

1 

X 

2 

3 

1 

0.05 

0.05 

0.1 

y 2 

0.05 

0.1 

0.35 

3 

0 

0.2 

0.1 


a) Evalue la distribution marginal de X. 

b) Evalue la distribucion marginal de Y. 

c) Encuentre P(Y = 3 | X = 2). 

3.50 Suponga que X y Y tienen la siguiente distribu- 
cion de probabilidad conjunta: 


f(x,y) 

2 

X 

4 

1 

0.10 

0.15 

y 3 

0.20 

0.30 

5 

0.10 

0.15 


3.45 Sea X el diametro de un cable electrico blindado °) Encuentre la distribucion marginal de X. 
y Y el diametro del molde ceramico que hace el cable. 6) Encuentre la distribucion marginal de Y. 
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3.51 Considere un experimento que consiste en 2 lan- 
zamientos de un dado balanceado. Si X es el numero de 
“cuatros” y Y es el niimero de “cincos” que se obtienen 
en los 2 lanzamientos del dado, encuentre 

a) la distribucion de probabilidad conjunta de X y Y; 

b ) P[(X, Y) 6 A], donde A es la region {(x, y) \ 2x + 
V < 3}. 

3.52 Sea X el niimero de caras y Y el numero de 
caras menos el niimero de cruces cuando se lanzan 
3 monedas. Encuentre la distribucion de probabilidad 
conjunta de X y Y. 


3.57 Determine si las dos variables aleatorias del 
ejercicio 3.50 son dependientes o independientes. 

3.58 La funcion de densidad conjunta de las varia- 
bles aleatorias X y Y es 

j,, f 6sc, 0 < x < 1 , 0 < y < 1 — x, 

’ \0, en cualquier otro caso. 

a) Muestre que X y Y no son independientes. 

b ) Encuentre P( X > 0.3 | Y = 0.5). 


3.53 Se sacan tres cartas sin reemplazo de las 12 car- 
tas mayores (jacks, reinas y reyes) de una baraja or- 
dinaria de 52 cartas. Sea X el niimero de reyes que se 
seleccionan y Y el niimero de jacks. Encuentre 

a) la distribucion de probabilidad conjunta de X y Y; 

b) P[(X, Y) 6 A], donde A es la region dada por {(a;, 
y) \ x + y > 2}. 

3.54 Se lanza dos veces una moneda. Sea Z el niimero 
de caras en el primer lanzamiento y W el niimero total de 
caras en los 2 lanzamientos. Si la moneda no esta ba- 
lanceada y una cara tiene una probabilidad de ocurren- 
cia de 40%, encuentre 

a) la distribucion de probabilidad conjunta de W y Z\ 

b) la distribucion marginal de W; 

c) la distribucion marginal de Z; 

d) la probabilidad de que ocurra al menos 1 cara. 

3.55 Dada la funcion de densidad conjunta 

,, , 0 < a; < 2, 2 < y < 4, 

f(x,y) = < „ 8 , . . 

l_0, en cualquier otro caso. 

Encuentre P(1 < Y < 3 | X = 1). 

3.56 Determine si las dos variables aleatorias del 
ejercicio 3.49 son dependientes o independientes. 


3.59 Si X, Y y Z tienen la funcion de densidad de 
probabilidad conjunta 

(kxy 2 z, 0 < x,y < 1; 0 < z < 2, 
t(x, y, z) = < 

l_0, en cualquier otro caso. 

a) Encuentre k. 

b) Encuentre P(X <|,y>|,l<Z<2). 

3.60 Determine si las dos variables aleatorias del 
ejercicio 3.43 son dependientes o independientes. 

3.61 Determine si las dos variables aleatorias del 
ejercicio 3.44 son dependientes o independientes. 

3.62 La funcion de densidad de probabilidad conjun- 
ta de las variables aleatorias X, Yy Z es 

0 < x, y < 1; 0 < z < 3, 
en cualquier otro caso. 


f(x,y,z) = 


f 4xyz 2 

w 


Encuentre 

a) la funcion de densidad marginal conjunta de Yy Z\ 

b ) la densidad marginal de Y; 

c) P(i <X< l Y > 1<Z<2); 

d) P(0 < X < \ | Y = Z = 2). 


Ejercicios de repaso 

3.63 Una companfa tabacalera produce mezclas de 
tabaco, y cada mezcla contiene varias proporciones de ta- 
baco turco, tabaco de la region y otros. Las proporcio- 
nes de turco y de la region en una mezcla son variables 
aleatorias con funcion de densidad conjunta (X = tur- 
co y Y = de la region) 


jr x ) f 24rcs/, 0 < x, y < 1; x + y< 1, 

’ \0, en cualquier otro caso. 


o) Encuentre la probabilidad de que en una caja dada 
el tabaco turco represente mas de la mitad de la 
mezcla. 

b) Encuentre la funcion de densidad marginal para la 
proportion del tabaco de la region. 

c) Encuentre la probabilidad de que la parte de tabaco 
turco sea menos de 1/8, si se sabe que la mezcla 
contiene 3/4 de tabaco de la region. 

3.64 Una companfa de seguros ofrece a sus asegura- 
dos varias opciones diferentes de pago de la prima. Para 
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un asegurado seleccionado al azar, sea X el numero de 
meses entre pagos sucesivos. La funcion de distribution 
acumulada de X es 


0, 

si 

X 

< 

1 



0.4, 

si 

1 

< 

X 

< 

3, 

0.6, 

si 

3 

< 

X 

< 

5, 

0.8, 

si 

5 

< 

X 

< 

7, 

1.0, 

si 

X 

> 

7. 




a) ^Cual es la funcion de masa de probabilidad de XI 

b) Calcule P(4 < X < 7). 

3.65 Dos componentes electronicos de un sistema de 
proyectiles funcionan en conjunto para el exito de todo 
el sistema. Sean X y Y\a vida en horas de los dos com- 
ponentes. La densidad conjunta de X y Y es 


3.68 Considere las variables aleatorias X y Y con fun- 
cion de densidad conjunta 

f( X ,y)=[ X + V' 

1_0, en cualquier otro caso. 

a) Encuentre las distribuciones marginales de X y Y. 

b) Encuentre P( X > 0.5, Y > 0.5). 

3.69 De un proceso industrial se elaboran articulos 
que se clasifican como defectuosos o no defectuosos. 
La probabilidad de que un artfculo este defectuoso es 
0.1. Se lleva a cabo un experimento, en el cual se sacan 
5 articulos al azar del proceso. Sea la variable aleato- 
ria X el numero de defectuosos en esta muestra de 5. 
^.Cual es la funcion de masa de probabilidad de X ? 

3.70 Considere la siguiente funcion de densidad de pro- 
babilidad conjunta de las variables aleatorias X y Y: 


/( a 


,y) = | 


-y(l+x) 


x,y > 0, 

en cualquier otro caso. 



1 < a; < 3, 1 < y < 2, 
en cualquier otro caso. 


a) Determine las funciones de densidad marginal para 
ambas variables aleatorias. 

b) ^.Cual es la probabilidad de que ambos compontes 
duren mas de dos horas? 


a) Encuentre las funciones de densidad marginal de X y Y. 

b) ^Son independientes X y Y? 

c) Encuentre P(X > 2). 


3.66 Una instalacion de servicio opera con dos lfneas. 
En un dfa seleccionado al azar, sea X la proportion de 
tiempo que la primera linea esta en uso; mientras que 
Y es la proportion de tiempo en que la segunda linea 
esta en uso. Suponga que la funcion de densidad de 
probabilidad conjunta para (X, Y) es 

f(x , y) = (l (* 2 + y 2 )’ ° 

’ \0, en cualquier otro caso. 


3.71 La duration en horas de un componente electri- 
co es una variable aleatoria con funcion de distribution 
acumulada 

1 — e“ so , x > 0, 

0, en cualquier otro caso. 

a) Determine su funcion de densidad de probabilidad. 

b) Determine la probabilidad de que la vida util de tal 
componente exceda 70 horas. 


a) Calcule la probabilidad de que ninguna h'nea este 
ocupada mas de la mitad del tiempo. 

b) Encuentre la probabilidad de que la primera h'nea 
este ocupada mas del 75% del tiempo. 

3.67 Sea el numero de llamadas telefonicas que recibe 
el conmutador durante un intervalo de 5 minutos una 
variable aleatoria X con funcion de probabilidad 

e~ 2 2 x 

fix ) = — . para x = 0, 1, 2, ... . 

x\ 

a) Determine la probabilidad de que X sea igual a 0, 1, 
2, 3, 4, 5 y 6. 

b ) Grafique la funcion de masa de probabilidad para 
estos valores de x. 

c) Determine la funcion de distribution acumulada 
para estos valores de X. 


3.72 Ciertas instalaciones industriales producen pan- 
talones. Un grupo de 10 trabaj adores los “verifican”. 
Los trabajadores inspecionan pantalones que se toman 
aleatoriamente de la h'nea de production. A cada ins- 
pector se le asigna un numero del 1 al 10. Un com- 
prador selecciona un pantalon para adquirirlo. Sea la 
variable aleatoria X el numero del inspector. 

a) Determine una funcion de masa de probabilidad ra- 
zonable para X. 

b) Grafique la funcion de distribution acumulada para X. 

3.73 La vida en anaquel de un producto es una va- 
riable aleatoria que se relaciona con la aceptacion por 
parte del consumidor. Resulta que la vida en anaquel 
Y, en dfas, de cierta clase de artfculo de panaderfa tiene 
una funcion de densidad 

\e~ v ^ 2 , 0 < y < oo, 

0, en cualquier otro caso. 
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^Que fraction de estos panes que se exhiben hoy esta- 
ran a la venta dentro de 3 di'as? 


3.74 El congestionamiento de pasajeros es un proble- 
ma en servicio de los aeropuertos. Dentro de estos se 
instalan trenes para reducir la congestion. Usando el 
tren, el tiempo A', en minutos, que toma viajar desde la 
terminal principal hasta una explanada especi'fica tiene 
una funcion de densidad 



0 < x < 10, 
en cualquier otro caso. 


a) Muestre ciue la funcion de densidad de probabilidad 
anterior es valida. 

b) Encuentre la probabilidad de que el tiempo que 
toma a un pasajero viajar desde la terminal princi- 
pal hasta la explanada no excedera los 7 minutos. 


3.75 Las impurezas en el lote del producto final de un 
proceso qm'mico a menudo reflejan un grave problema. 
A partir de una cantidad considerable datos recabados 
en la planta, se sabe que la proportion de Y de las impu- 
rezas en un lote tiene una funcion de densidad dada 
por 



10(1 -y) 9 , 
0 , 


0 < y < 1, 

en cualquier otro caso. 


c) ^Cual es la probabilidad de que las proporciones del 
componente generen los resultados A'i < 0.2 y X 2 > 
0.5? 

d) Determine la distribution conditional fx 1 \x 2 { x i\ x 2 )- 


3.78 Considere la situation del ejercicio de repaso 
3.77; pero suponga que la distribution conjunta de las 
dos proporciones esta dada por 


, _ f 6 x 2 , 0 < X 2 < Xl < 1, 

’ \0, en cualquier otro caso. 

a) Determine la distribution marginal /xi(*i) de la 
proportion Xi y verihque que sea una funcion de 
densidad valida. 

b) ^.Cual es la probabilidad de que la proportion X 2 sea 
menor que 0.5 dado que Aj es 0.7? 


3.79 Considere que las variables aleatorias X y Y 
representan el numero de vehfculos que llegan a dos 
esquinas de calles separadas durante cierto periodo de 
2 minutos. Estas esquinas de las calles estan bastan- 
te cerca una de la otra, de manera que es importante 
que los ingenieros de trahco se ocupen de ellas de ma- 
nera conjunta si es necesario. Se sabe que la distribu- 
tion conjunta de X y Ves 

f ( x ' y ) = -h'wtv)’ 


a) Verihque que la funcion de densidad anterior sea 
valida. 

b) Se considera que un lote no es vendible y, por consi- 
guiente, no es aceptable si el porcentaje de impurezas 
supera 60%. Con la calidad del proceso actual, ^cual 
es el porcentaje de lotes que no son aceptables? 


para x = 0, 1, 2, . . . ,y para y = 0, 1, 2, 

a) i,Son independientes las dos variables aleatorias X y 
y? Explique por que. 

b) ^.Cual es la probabilidad de que durante el periodo 
en cuestion menos de 4 vehfculos lleguen a las dos 
esquinas. 


3.76 El tiempo Z en minutos entre llamadas a un 
sistema de alimentation electrica tiene la funcion de 
densidad de probabilidad 

y^e -z/10 , 0 < z < 00 , 

0, en cualquier otro caso. 

a) ^Cual es la probabilidad de que no haya llamadas en 
un lapso de 20 minutos? 

b) ^Cual es la probabilidad de que la primera llamada 
entre en los primeros 10 minutos? 

3.77 Un sistema quunico que surge a partir de una 
reaction qufmica tiene dos componentes importantes, 
entre otros, en una mezcla. La distribution conjunta 
que describe la proportion X\ y X 2 de estos dos com- 
ponentes esta dada por 

x , _ f 2, 0 < x\ < x 2 < 1, 

’ \0, en cualquier otro caso. 

a) Determine la distribution marginal de X\. 

b) Determine la distribution marginal de X 2 . 


3.80 El comportamiento de series de componentes 
juega un papel importante en problemas de conhabilidad 
cientfficos y de ingenierfa. Ciertamente la conhabilidad de 
todo el sistema no es mejor que el componente mas debil 
de las series. En un sistema de series los componentes 
funcionan independientemente entre sf. En un sistema 
particular de tres componentes la probabilidad de cum- 
plir con la especihcacion para los componentes 1, 2 
y 3, respectivamente, son 0.95, 0.99 y 0.92. /,Cual es la 
probabilidad de que todo el sistema funcione? 

3.81 Otro tipo de sistema que se utiliza en trabajos 
de ingenierfa es un grupo de componentes en paralelo o 
sistema paralelo. En este enfoque mas conservador, la 
probabilidad de que el sistema funcione es mayor que 
la probabilidad de que culaquier componente funcione. 
El sistema fallara solo cuando todo el sistema falle. 
Considere una situation en que haya 4 componentes 
independientes en un sistema paralelo con la probabili- 
dad de operation dada por 

Componente 1: 0.95; Componente 2: 0.94; 

Componente 3: 0.90; Componente 4: 0.97. 
^Cual es la probabilidad de que no falle el sistema? 
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3.82 Considere un sistema de componentes eii que ventiva en el sistema disenada para que este no falle 
haya cinco componentes independientes, cada uno mientras 3 de sus 5 componentes esten en funcio- 
de los cuales tiene una probabilidad de operacion de namiento. /.Cual es la probabilidad de que funcione 
0.92. De hecho, el sistema tiene una redundancia pre- todo el sistema? 

3.5 Nociones erroneas y riesgos potenciales; 
relacion con el material de otros capftulos 

En futures capftulos sera evidente que las distribuciones de probabilidad repre- 
sentan la estructura mediante la cual las probabilidades que se calculan ayudan a 
evaluar y a comprender un proceso. En el ejercicio de repaso 3.67, por ejemplo, la 
distribution de probabilidad que cuantifica la probabilidad de que haya una carga 
excesiva durante ciertos periodos podrfa ser muy util en la planeacion de cualesquie- 
ra cambios en el sitema. El ejercicio de repaso 3.71 describe un escenario donde se 
estudia el periodo de vida util de un componente electronico. Conocer la estructura 
de la probabilidad para el componente contribuira de manera significativa con el 
entendimiento de la confiabilidad de un sistema mayor del cual forma parte el com- 
ponente. Ademas, comprender la naturaleza general de las distribuciones de proba- 
bilidad reforzara el conocimiento del concepto valor-/*, que se estudio brevemente 
en el capitulo 1, jugara un papel destacado al inicio del capitulo 10 y continuara por 
todo el texto. 

Los capftulos 4, 5 y 6 dependen en mucho del material cubierto en este capftu- 
lo. En el capitulo 4 estudiaremos el significado de parametros importantes en las 
distribuciones de probabilidad. Tales parametros cuantifican las nociones de ten- 
dencia central y variabilidad en un sistema. De hecho, el conocimiento mismo de 
tales cantidades, al margen de la distribution completa, puede ofrecer information 
sobre la naturaleza del sistema. En los capftulos 5 y 6 se examinaran escenarios de 
ingenierfa, biologicos y de ciencia en general, que identifican tipos de distribuciones 
especiales. Por ejemplo, la estructura de la funcion de probabilidad en el ejercicio de 
repaso 3.67 se identificara facilmente bajo ciertas suposiciones estudiadas en el capf- 
tulo 5. Lo mismo ocurre en el contexto del ejercicio de repaso 3.71. Este es un caso 
especial de problema sobre tiempo de operacion antes del fallo, cuya funcion de 
densidad de probabilidad se estudiara en el capitulo 6. 

En lo que concierne a los riegos potenciales de utilizar el material de este capf- 
tulo, la “advertencia” para el lector serfa no leer el material mas alia de lo que sea 
evidente. La naturaleza general de la distribution de probabilidad para un fenomeno 
cientffico determinado no es obvia a partir de lo que se estudio aquf. La finalidad 
de este capitulo es aprender a manipular una distribution de probabilidad, no saber 
como identificar un tipo especffico. Los capftulos 5 y 6 recorren un largo trecho hacia 
la identficacion respecto de la naturaleza general del sistema cientffico. 



Capitulo 4 

Esperanza matematica 


4.1 Media de una variable aleatoria 

Si clos monedas se lanzan 16 veces y X es el numero de caras que ocurre por cada 
lanzamiento, entonces los valores de X pueden ser 0, 1 y 2. Suponga que en el ex- 
perimento salen cero caras, una cara y dos caras, respectivamente, un total de 4, 
7 y 5 veces. El numero promedio de caras por lanzamiento de las dos monedas es, 
entonces, 

(0)(4) + (l)(7) + (2)(5) 

16 

Este es un valor promedio y no necesariamente es un resultado posible del experi- 
mento. Por ejemplo, el ingreso mensual promedio de un vendedor probablemente no 
sea igual a alguno de sus cheques de pago mensuales. 

Reestructuremos ahora nuestro calculo del numero promedio de caras, de manera 
que tengamos la siguiente forma equivalente: 



Los numeros 4/16, 7/16 y 5/16 son las fracciones de los lanzamientos totales que re- 
sultan, respectivamente, en 0, 1 y 2 caras. Tales fracciones tambien son las frecuencias 
relativas de los diferentes valores de X en nuestro experimento. En efecto, entonces, 
calculamos la media o promedio de un conjunto de datos utilizando el conocimien- 
to de los distintos valores que ocurren y sus frecuencias relativas, sin un conocimiento 
del numero total de observaciones en nuestro conjunto de datos. Por lo tanto, si 4/16 
o 1/4 de los lanzamientos tienen como resultado cero caras, 7/16 de los lanzamientos 
tienen como resultado una cara y 5/16 de estos tienen dos caras, el numero medio de 
caras por lanzamiento serfa 1.06, sin importar si el numero total de lanzamientos fue 
16, 1000 o incluso 10,000. 

Utilicemos ahora este metodo de frecuencias relativas para calcular el numero 
promedio de caras por el lanzamiento de dos monedas que esperariamos en el largo 
plazo. Nos referiremos a este valor promedio como la media de la variable aleato- 
ria X o la media de la distribucion de probabilidad de X, y la denotamos con 
fj x o simplemente como /. i cuando este claro a que variable aleatoria nos referimos. 
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Definition 4.1: 


Ejemplo 4.1: 


Tambien es comun entre los estadi'sticos referirse a esta media como la esperanza 
matematica o el valor esperado de la variable aleatoria X y denotar la como E(X). 

Suponga que se lanzan monedas legales, y encontramos que el espacio muestral 
para nuestro experimento es 

S = { mi. HT , 777. IT}. 

Como los 4 puntos muestrales son igualmente probables, se sigue que 

P(X = 0) = P(TT) = P(X = 1) = P(TH) + P{HT) = ^ 


y 


P(X = 2) = P(HH) = i, 

donde un elemento ti'pico, digamos TH, indica que el primer lanzamiento tuvo como 
resultado una cruz seguida de una cara en el segundo lanzamiento. Asf, estas pro- 
babilidades son precisamente las frecuencias relativas para los eventos dados en el 
largo plazo. Por lo tanto, 

M=£(X) = (0) (i) + (1) (|) + (2) (j)=l. 

Este resultado quiere decir que una persona que lance 2 monedas una y otra vez, en 
promedio, obtendra 1 cara por cada lanzamiento. 

El metodo clescrito antes para calcular el numero esperado de caras en el lanza- 
miento de 2 monedas sugiere que la media, o el valor esperado de cualquier variable 
aleatoria, discreta se puede obtener multiplicando cada uno de los valores x\, X 2 , ■ ■ ■ , 
x n de la variable aleatoria X por su probabilidad correspondiente f(x i), f{x 2 ), . . . , 
f(x n ) y sumando los productos. Esto es cierto, sin embargo, solo si la variable alea- 
toria es discreta. En el caso de variables aleatorias continuas, la definicion de un 
valor esperado es esencialmente la misma, pero con integrales que reemplazan las 
sumatorias. 


Sea X una variable aleatoria con distribution de probabilidad f(x). La media o 
valor esperado de X es 

M = £(X) = 5>/(z) 

X 

si X es discreta, y 

/ oo 

xf{x) dx 

-OO 

si X es continua. 


Un inspector de calidad muestrea un lote que contiene 7 componentes; el lote con- 
tiene 4 componentes buenos y 3 defectuosos. El inspector toma una muestra de 
3 componentes. Encuentre el valor esperado del numero de componentes buenos en 
esta muestra. 




4.1 Media de una variable aleatoria 


109 


Solucion: Sea X el numero de componentes buenos en la muestra. La distribution de proba- 
bilidad de X es 


/4 )( 3 -J 
(D : 


f(x) = 


x = 0, 1, 2, 3. 


Unos calculos sencillos dan /( 0) = 1/35, /( 1) = 12/35, /( 2) = 18/35 y /( 3) = 4/35. 
Por lo tanto, 


1 


35 


12 


35 


H = E{X) = (0) - + (1) - +(2) - +(3) - = - = 1.7. 


18 


35 


35 


12 


De esta manera, si se selecciona al azar una muestra de tamano 3 una y otra vez 
de un lote de 4 componentes buenos y 3 defectuosos, contendrfa, en promedio, 1.7 
componentes buenos. 


Ejemplo 4.2:1 En un juego de azar se pagaran $5 a una persona si le salen puras caras o puras cru- 
ces cuando se lanzan tres monedas, y ella pagara $3 si salen una o clos caras. ^Cual 
es su ganancia esperada? 

Solucion: El espacio muestral para los posibles resultados cuando se lanzan de manera simul- 
tanea tres monedas o, de manera equivalente, si se lanza tres veces 1 moneda, es 

S = {IIIIH. HHT ; HTH, I'll H . HIT, THT, TTH, TIT}. 

Se podria argumentar que cada una de estas posibilidades es igualmente probable y 
que ocurre con probabilidad de 1/8. Un metodo alternative seria aplicar la regia de la 
multiplication de probabilidades para eventos independientes a cada elemento de S. 
Por ejemplo, 


P ( HHT) = P(H)P(H)P(T , = (i) (1) (1) = 1. 

La variable aleatoria de interes es Y, el monto que el jugador puede ganar; y los 
valores posibles de Y son $5 si ocurre el evento E\ = {HHH, ITT} y — $3 si ocurre 
el evento 

E 2 = {HHT, HTH, THH, HIT, THT, TTH}. 

Como E\ y E 2 ocurren con probabilidades 1/4 y 3/4, respectivamente, se sigue que 

<* = E < y ) = < 5 > (j) + <- 3 > (!) = - l 

En este juego la persona perdera, en promedio, $1 por lanzamiento de las tres mone- 
das. Un juego se considera “equitativo” si el jugador, en promedio, sale empatado. 
Por lo tanto, una ganancia esperada de cero define un juego equitativo. 

Los ejemplos 4.1 y 4.2 se disenaron para permitir al lector lograr una mejor 
comprension de lo que queremos decir por valor esperado de una variable aleatoria. 
En ambos casos, las variables aleatorias son discretas. Seguimos con un ejemplo de 
variable aleatoria continua, donde un ingeniero se interesa en la vida media de cierto 
tipo de dispositivo electronico. Esta es una ilustracion del problema de tiempo de 
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Ejemplo 4.3: 


Solution: 


Teorema 4.1: 


operation antes del fallo que a menudo ocurre en la practica. El valor esperado de 
la vida del dispositivo es un parametro importante para su evaluation. 


Sea X la variable aleatoria que denota la vida en horas de cierto dispositivo electro- 
nico. La funcion de densidad de probabilidad es 


/O) 


20,000 
x 3 ’ 

0 , 


x > 100, 

en cualquier otro caso. 


Encuentre la vida esperada para esta clase de dispositivo. 
Con la definicion 4.1, tenemos 


=e(x)= r 

J 10 


20,000 , 

x - — ax = 


20,000 


dx = 200. 


Por lo tanto, esperamos que, en promedio, este tipo de dispositivo dure 200 horas. 

Consideremos ahora una nueva variable aleatoria g(X ) , la cual depende de X\ es 
decir, cada valor de g{X) esta determinado al conocer los valores de X. Por ejemplo, 
g{X) podria ser X 2 o 3X — 1, de manera que siempre que X tome el valor 2, g(X) 
toma el valor g(2). En particular, si X es una variable aleatoria discreta con distri- 
bution de probabilidad f(x), x = — 1, 0, 1, 2 y g(X) = X 2 , entonces, 


P[g(X) = 0] = P(X = 0) = /( 0), 

P\g(X) = 1] = P(X = -1) + P(X = 1) = /(- 1) + /( 1), 
P\g{X) = 4] = P(X = 2) = /( 2), 

de manera que la distribucion de probabilidad de g(X) se escribe como 


9 0) 

0 14 

P\g(X) = ff (z)] 

/( 0) /(-!) + /(!) / (2) 


Por definicion del valor esperado de una variable aleatoria, obtenemos 


H 9 (X) = E[g{x)\ = 0/(0) + l[/(-l) + /( 1)] + 4/(2) 

= (-l) 2 /(-l) + (0) 2 /(0) + (1) 2 /(1) + (2) 2 / (2) = X>(z)/(z). 

Este resultado se generaliza en el teorema 4.1 para variables aleatorias discretas y 
continuas. 


Sea X una variable aleatoria con distribucion de probabilidad f(x). El valor espe- 
rado de la variable aleatoria g(X) es 

/'</(*) = E[g(X)\ = ^2g(x)f(x) 

X 

si X es discreta, y 

/ OO 

g(x)f(x) dx 

-OO 

si X es continua. 
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Ejemplo 4.4: 


Solucion: 


Ejemplo 4.5: 


Solucion: 


Definicion 4.2: 


Suponga que el numero de automoviles X que pasa por un autolavado entre 4:00 p.m. 
y 5:00 p.m. en cualquier viernes soleado tiene la siguiente distribucion de proba- 
bilidad: 


X 

4 5 6 7 8 9 

P(X = x) 

1 11111 

12 12 4 4 6 6 


Sea g(X ) = 2X — 1 la cantidad de dinero en clolares, que el administrador paga 
al dependiente. Encuentre las ganancias que espera el dependiente en este periodo 
especffico. 

Por el teorema 4.1, el dependiente puede esperar recibir 


9 

E[g(X)] =E( 2X - 1) = £(2* - l)f(x) 

= (7 >(^) + <9) (^) + <11 »( i) +(13) G 

+ (15) (|) +(17) (|) = S12-67. 


Sea X una variable aleatoria con funcion de densidad 


/O) 


- 1 <®< 2 , 

0, cn cualquier otro caso. 


Encuentre el valor esperado de g(X) = 4X + 3. 
Por el teorema 4.1, tenemos 


E{ 4X + 3) = [ ^ + 3 ^' 2 dx = \ f (4a: 3 + 3x 2 ) dx = 8. 
.7-1 3 3 


J 


Debemos extender ahora nuestro concepto de esperanza matematica al caso de 
dos variables aleatorias X y Y con distribucion de probabilidad conjunta f(x, y) . 

Sean X y Y variables aleatorias con distribucion de probabilidad conjunta f(x, y). 
La media o valor esperado de la variable aleatoria g(X, Y ) es 

H g{ x,Y) = E\g{X,Y)] = EE g(x,y)f(x,y) 

x y 

si X y Y son discretas, y 

/ OO /‘OO 

/ g(x,y)f(x,y) dx dy 

-OO J — OO 

si X y Y son continuas. 

Es evidente la generalizacion de la definicion 4.2 para el calculo de la esperanza 
matematica de funciones de diversas variables aleatorias. 
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Ejemplo 4.6:1 Sean X y Y variables aleatorias con la distribucion de probabilidad conjunta que se 
indica en la tabla 3.1 de la pagina 92. Encuentre el valor esperado de g(X, Y) = XY. 
Por conveniencia se repite aqui la tabla. 


f(x,y ) 

X 

Totales 
por renglon 

0 1 2 

y 

0 

1 

2 

3 9 3 

28 28 28 

JL JL o 

14 14 u 

h 0 0 

15 

28 

3 

7 

1 

28 

Totales por columna 

5 15 3 

14 28 28 

l 


Solucion: Por la definition 4.2, escribimos 

2 2 

E(XY) = EE x uf( x , y) = (o)(o)/(o, o) + (o)(i)/(o, 1) 

x=0 y = 0 

+ ( 1 )( 0 )/( 1 , 0 ) + ( 1 )( 1 )/( 1 , 1 ) + ( 2 )( 0 )/( 2 , 0 ) 


Ejemplo 4.7:1 Encuentre (Y/X) para la funcion de densidad 

' x(1+ - iy2 \ 0<x<2, 0 < y < 1, 


f{x ' y)= o, 4 


en cualquier otro caso. 


Solucion: Tenemos 


E 


Y 


1 f Iy A^d« = l 

0 JO Jo 


) Jq Jo 4 J o 2 

Observe que si g(X, Y) = X en la definition 4.2, tenemos 


{ E E x f( x , V) = E xg{x), (caso discreto), 

x y x 

f-oJZ xf( x, y ) dy dx = f^° xg(x) dx , (caso continuo), 

donde g{x) es la distribucion marginal de X. Por lo tanto, para calcular E(X) en un 
espacio bidimensional, se puede utilizar tanto la distribucion de probabilidad con- 
junta de X y Y, como la distribucion marginal de X. De manera similar, definimos 


! E E yf( x > y) = E vHy), ( caso discreto), 

y x y 

fZo fZo yf( x ’ y) dx d y = XE y h (y ) ^ ( caso continuo), 


donde h ( y ) es la distribucion marginal de la variable aleatoria Y. 
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Ej ercicios 


4.1 Suponga que dos variables aleatorias (X, Y) se 
distribuyen de manera uniforme en un cfrculo con radio 
a. La funcion densidad de probabilidad conjunta es, 
entonces, 



2 , 2^2 
x +y < a , 

en cualquier otro caso. 


Encuentre el valor esperado de X, fix. 


4.2 La distribution de probabilidad de la variable 
aleatoria discreta X es 



Encuentre la media de X. 


4.3 Encuentre la media de la variable aleatoria T que 
representa el total de las tres monedas del ejercicio 3.25 
de la pagina 89. 


4.9 En un juego de azar, a una mujer se le pagan $3 
si saca un jack o una reina, y $5 si saca un rey o un 
as de una baraja ordinaria de 52 cartas. Pierde si saca 
cualquier otra carta. ^Cuanto deberfa pagar si el juego 
es justo? 

4.10 Dos expertos en calidad de neumaticos exami- 
nan lotes de estos y asignan puntuaciones de calidad 
a cada neumatico en una escala de tres puntos. Sea X 
la puntuacion dada por el experto Ay Y la del experto 
B. La siguiente tabla presenta la distribution conjunta 
para X y Y. 



1 

y 

2 

3 

1 

0.10 

0.05 

0.02 

x 2 

0.10 

0.35 

0.05 

3 

0.03 

0.10 

0.20 


Encuentre n x y /:t y ■ 


4.4 Una moneda esta cargada de manera que la pro- 
babilidad de ocurrencia de una cara es tres veces ma- 
yor que la de una cruz. Encuentre el numero esperado 
de cruces cuando se lanza dos veces esta moneda. 

4.5 La distribution de probabilidad de X, el numero 
de imperfecciones por cada 10 metros de una tela sinte- 
tica, en rollos continuos de ancho uniforme, esta dada 
en el ejercicio 3.13 de la pagina 89 como 


X 

0 

1 

2 

3 

4 

/(*) 

0.41 

0.37 

0.16 

0.05 

0.01 


Encuentre el numero promedio de imperfecciones en 
10 metros de esta tela. 


4.11 Un piloto privado desea asegurar su avion por 
$200,000. La compama de seguros estima que puede 
ocurrir una perdida total con probabilidad de 0.002, 
una perdida de 50% con probabilidad de 0.01 y una 
perdida de 25% con probabilidad de 0.1. Si se ignoran 
todas las demas perdidas parciales, ^que prima deberfa 
cobrar cada ano la compama de seguros para tener una 
utilidad promedio de $500? 

4.12 Si la ganancia de un distribuidor, en unidades 
de $5000, para un automovil nuevo se puede ver como 
una variable aleatoria X que tiene la funcion de den- 
sidad 


4.6 A un dependiente de un autolavado se le paga de 
acuerdo con el numero de automoviles que lava. Supon- 
ga que las probabilidades son 1/12, 1/12, 1/4, 1/4, 1/6, 
y 1/6, respectivamente, de que el dependiente reciba 
$7, $9, $11, $13, $15 o $17 entre 4:00 p.m. y 5:00 p.m. en 
cualquier viernes soleado. Encuentre las ganancias que 
esperada el dependiente para este periodo especffico. 


f(x) = ( 2 ^ ~ X ^ 0<x< 

\0, en cualquier otro caso, 

encuentre la ganancia promedio por automovil. 

4.13 La funcion de densidad de las mediciones codi- 
ficadas del diametro de paso de los hilos de un encaje 
es 


4.7 A1 invertir en unas accioness particulares, en un 
ano un individuo puede obtener una ganancia de $4000 
con probabilidad de 0.3, o tener una perdida de $1000 con 
probabilidad de 0.7. ^,Cual es la ganancia esperada por 
esta persona? 


/( x ) 


ix(l+x 2 ) 5 

o, 


0 < x < 1, 

en cualquier otro caso. 


Encuentre el valor esperado de X. 


4.8 Suponga que un distribuidor de joyerfa antigua 
se interesa en comprar un collar de oro, para el que 
las probabilidades son 0.22, 0.36, 0.28 y 0.14, respecti- 
vamente, de que pueda venderlo con una ganancia de 
$250, venderlo con una ganancia de $150, venderlo al 
costo o venderlo con una perdida de $150. ^Cual es su 
ganancia esperada? 


4.14 f,Que proportion de individuos se puede esperar 
que respondan a cierta encuesta que se envfa por co- 
rreo, si la proportion A' tiene la funcion de densidad 

0 < £C < 1, 

0, en cualquier otro caso. 
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4.15 La funcion de densidad de la variable aleatoria 
continua A', el numero total de lioras, en unidades de 
100 lioras, que una familia utiliza una aspiradora en un 
periodo de un ano, se da en el ejercicio 3.7 de la pagina 
88 como 

{ x, 0 < x < 1 , 

2 — x, 1 < x < 2, 

0, en cualquier otro caso. 

Encuentre el numero promedio de lioras por ano que 
las familias utilizan sus aspiradoras. 

4.16 Suponga que usted inspecciona un lote de 1000 
bombillas de luz, entre los cuales hay 20 defectuosos. 
Elija al azar dos bombillas del lote sin reemplazo. 
Sean 

X _ f 1, si la primera bombilla esta defectuosa, 
\0, en cualquier otro caso, 

Y f 1, si la primera bombilla esta defectuosa, 

\0, en cualquier otro caso. 

Encuentre la probabilidad de que al menos una bom- 
billa este defectuosa. [ Sugerencia : Calcule P[X\ + X 2 = 
!)•] 

4.17 Sea A' una variable aleatoria con la siguiente 
distribucion de probabilidad: 

x —3 6 9 

f(x) 1/6 1/2 W 

Encuentre p g ( x ), donde g( X) = (2X + l) 2 . 

4.18 Encuentre el valor esperado de la variable alea- 
toria g(X) = A' 2 , donde X tenga la distribucion de 
probabilidad del ejercicio 4.2. 


4.21 ^Cual es la ganancia promedio por automovil 
del distribuidor, si la ganancia en cada uno esta dada 
por g(X) = A' 2 , donde X es una variable aleatoria que 
tiene la funcion de densidad del ejercicio 4.12? 

4.22 El periodo de hospitalization, en dias, para pa- 
cientes que siguen el tratamiento para cierto tipo de 
trastorno renal es una variable aleatoria Y = X + 4, 
donde X tiene la funcion de densidad 


/(*) 


f 32 
J (x+4) 3 ’ 

l 0 ’ 


x > 0, 

en cualquier otro caso. 


Encuentre el numero promedio de dias que un indivi- 
duo permanece hospitalizada para seguir el tratamien- 
to para dicha enfermedad. 


4.23 Suponga que A' y Y tienen la siguiente funcion 
de probabilidad conjunta: 



a) Encuentre el valor esperado de g{X, Y) = XY 2 . 

b) Encuentre p x y p Y . 

4.24 Con referencia a las variables aleatorias cuya 
disribucion de probabilidad conjunta se da en el ejerci- 
cio 3.39 de la pagina 101, 

a) encuentre E(X 2 Y - 2 AT); 

b) encuentre p x — p Y . 


4.19 Una empresa industrial grande compra varios 
procesadores de palabras nuevos al final de cada ano; 
el numero exacto depende de la frecuencia de repara- 
ciones en el ano anterior. Suponga que el numero de 
procesadores de palabras, A, que se compran cada ano 
tiene la siguiente distribucion de probabilidad: 

x 0 1 2 3 

f(x) 1/10 3710 275 I75 - 

Si el costo del modelo que se desea permanecera fijo en 
$1200 a lo largo de este ano y se obtiene un descuento 
de 50A' 2 dolares en cualquier compra, ^cuanto espera 
gastar esta empresa en nuevos procesadores de pala- 
bras al final de este ano? 

4.20 Una variable aleatoria continua X tiene la fun- 
cion de densidad 

/(x)= / e '*> *>°. 

\0, en cualquier otro caso. 

Encuentre el valor esperado de g (X) = e 2X ^ 3 . 


4.25 Refierase a las variables aleatorias cuya distribu- 
cion de probabilidad conjunta se da en el ejercicio 5.53 
de la pagina 103, y encuentre la media para el numero 
total de jacks y reyes cuando se sacan 3 cartas sin reem- 
plazo de las 12 cartas mayores de una baraja ordinaria 
de 52 cartas. 

4.26 Sean A' y Y variables aleatorias con funcion de 
densidad conjunta 

f( x ,, \ _ f*°V, 0<x, y < 1, 

’ \0, en cualquier otro caso. 

Encuentre el valor esperado de Z = \/X 2 + Y 2 . 

4.27 En el ejercicio 3.27 de la pagina 89, una funcion 
de densidad esta dada por el tiempo de operation an- 
tes del fallo de un componente importante de un re- 
productor de dvd. Encuentre el numero medio en lioras 
antes del fallo del compnente y, por lo tanto, del dvd. 
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4.28 Considere la information del ejercicio 3.28 de la 
pagina 89. El problema tiene que ver con los pesos, en 
onzas, del producto en una caja de cereal con 

§, 23.75 < x < 26.25, 

0, en cualquier otro caso. 

a) Grafique la funcion de densidad. 

b) Calcule el valor esperado o peso medio en onzas. 

c) ^Se sorprende de su respuesta en 6)? Explique. 

4.29 En el ejercicio 3.29 de la pagina 90, tratamos 
con una importante distribution del tamano de las par- 
ti'culas, en que la distribution del tamano de las partfcu- 
las esta caracterizada por 

f( x ) = f^ x ’ x > 

\0, en cualquier otro caso. 

a) Grafique la funcion de densidad. 

b) Determine el tamano medio de la partfcula. 

4.30 En el ejercicio 3.31 de la pagina 90, la distribu- 
tion del tiempo antes de una reparation mayor de una 
lavadora estuvo dada como 


f -e v 0 

f(y) = l 4 ’ y ~ v \ 

l_0, en cualquier otro caso. 

^Cual es el “tiempo para reparation” medio de la po- 
blacion? 

4.31 Considere el ejercicio 3.32 de la pagina 90. 

a) ^Cual es la proportion media del presupuesto asig- 
nado a los controles ambiental y de la contamina- 
tion? 

b) ^Cual es la probabilidad de que elegida al azar ten- 
dra una proportion asignada a los controles ambien- 
tal y de la contamination que exceda la media de la 
poblacion dada en a)? 

4.32 En el ejercicio 3.13 de la pagina 89, la distribu- 
tion del numero de imperfecciones por 10 metros de 
tela sintetica esta dada por 


X 

0 

1 

2 

3 

4 

f(x) 

0.41 

0.37 

0.16 

0.05 

0.01 


a) Grafique la funcion de probabilidad. 

b) Encuentre el numero de imperfecciones esperado 
E(X) =». 

c) Encuentre E( X 2 ). 


4.2 Varianza y covarianza de variables aleatorias 

La media o valor esperado de una variable aleatoria X es de especial importancia en 
estadfstica, ya que describe el lugar donde se centra la distribution de probabilidad. 
Por sf misma, sin embargo, la media no ofrece una description adecuada de la forma 
de la distribution. Necesitamos caracterizar la variabilidad en la distribution. En la 
figura 4.1 tenemos los histogramas de dos distribuciones de probabilidad discretas 
con la misma media /i = 2, que difieren de manera considerable en la variabilidad o 
dispersion de sus observaciones alrededor de la media. 



Figura 4.1: Distribuciones con medias iguales y dispersiones diferentes. 
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Definicion 4.3: 


Ejemplo 4.8: 


Solucion: 


La medida de variabilidad mas importance de una variable aleatoria X se ob- 
tiene al aplicar el teorema 4.1 en g(X) = ( X — p) 2 . A causa de su importancia en 
estadistica, se le denomina varianza de la variable aleatoria X o varianza de 
la distribution de probabilidad de X y se clenota como Var(X) o con el sfmbolo 
a 2 , o simplemente a 2 cuando queda claro a que variable aleatoria nos referimos. 

Sea X una variable aleatoria con distribucion de probabilidad f(x) y media p. 

La varianza de X es 

(j 2 = E[(X — p) 2 } = ^(x — p) 2 f{x ), si X es discreta, y 

X 

/ oo 

( x — p) 2 f(x) dx, si X es continua. 

-OO 

La raiz cuadrada positiva de la varianza, a, se llama desviacion estandar 
de X. 


La cantidad x — p en la definicion 4.3 se llama desviacion de una observa- 
cion respecto a su media. Como estas desviaciones se elevan al cuadrado y despues 
se promedian, er 2 sera mucho menor para un conjunto de valores x que esten cerca- 
nos a p, que para un conjunto de valores que varfe de forma considerable de p. 


Sea la variable aleatoria X el mimero de automoviles que se utilizan con propositos 
de negocios oficiales en un dfa de trabajo dado. La distribucion de probabilidad para 
la compama A [figura 4.1a)] es 


X 

1 

2 3 

f{x) 

0.3 

0.4 0.3 


y para la compama B [figura 4.16)] es 


X 

0 1 

2 3 4 

f{x) 

0.2 0.1 

0.3 0.3 0.1 


Muestre que la varianza de la distribucion de probabilidad para la compama B es 
mayor que la de la compama A. 

Para la compama A, encontramos que 


y entonces 


p A = E(X) = (1)(0.3) + (2)(0.4) + (3)(0.3) = 2.0, 


3 

a\ = ^(x - 2) 2 = (1 - 2) 2 (0.3) + (2 - 2) 2 (0.4) + (3 - 2) 2 (0.3) = 0.6. 

X—l 

Para la compama B , tenemos 


p B = E(X) = (0)(0.2) + (1)(0.1) + (2)(0.3) + (3)(0.3) + (4)(0.1) = 2.0, 
por lo que 

4 = - 2 ) 2 /(x) = (0 - 2) 2 (0.2) + (1 - 2) 2 (0.1) + (2 - 2) 2 (0.3) 

x—0 

+ (3 - 2) 2 (0.3) + (4 - 2) 2 (0.1) = 1.6. 




4.2 Varianza y covarianza de variables aleatorias 


117 


Teorema 4.2: 


Prueba: 


Ejemplo 4.9: 


Solucion: 


Ejemplo 4.10: 


De forma clara, la varianza del numero de automoviles que se utilizan con propositos 
de negocios oficiales es mayor para la compama B que para la compama A. 

Una formula alternativa que se prefiere para encontrar a 2 , que a menudo simpli- 
fica los calculos, se establece en el siguiente teorema. 


La varianza de una variable aleatoria X es 

a 2 = E{X 2 ) - A i 2 . 

Para el caso discreto escribimos 

ct 2 = J2(x - fj) 2 f{x) = ^(z 2 - 2nx + n 2 )f(x) 

X X 

= ^2fX 2 f{x) - +l j2 J2f( x ')- 

X XX 

Como /a = J2 x f( x ) P or definicion, y J^/(x) = 1 para cualquier distribucion de 

X X 

probabilidad discreta, se sigue que 

a 2 = ^x 2 /(x)-/r 2 = E(X 2 )-/x 2 . 

X 

Para el caso continuo la demostracion es la misma paso a paso, si se reemplazan las 
sumatorias por integrales. 


Sea la variable aleatoria X el numero de partes defectuosas de una maquina, cuando 
se muestrean y se prueban tres partes de una lfnea de produccion. La siguiente es la 
distribucion de probabilidad de X. 


X 

0 

1 

2 

3 

f{x) 

0.51 

0.38 

0.10 

0.01 


Con el teorema 4.2, calcule a 2 . 
Primero, calculamos 


ix = (0)(0.51) + (1)(0.38) + (2) (0.10) + (3)(0.01) = 0.61. 


Luego, 

E(X 2 ) = (0)(0.51) 
Por lo tanto, 


(1)(0.38) + (4)(0.10) + (9)(0.01) = 0.87. 


0.87 - (0.61) 2 = 0.4979. 


J 


La demanda semanal de Pepsi, en miles de litros, de una cadena local de tiendas al 
menudeo, es una variable aleatoria continua X que tiene la densidad de probabilidad 

. _ f 2(x - 1), 1 < x < 2, 

' ^ (0, en cualquier otro caso. 

Encuentre la media y la varianza de X. 

f 2 5 

/r = E(X) = 2 / x(x — 1) dx = — , 

J l 3 


Solucion: 
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Teorema 4.3: 


Prueba: 


Ejemplo 4.11: 


Solucion: 


y 

r 2 17 

E(X 2 ) = 2 J x 2 (x — 1) dx = — . 

Por lo tanto, 



Hasta el momento, la varianza o la desviacion estandar solo tiene significado 
cuando comparamos dos o mas distribuciones que tienen las mismas unidades de 
medida. Por lo tanto, podemos comparar las varianzas de las distribuciones de con- 
tenidos, medidos en litros, para dos companias que embotellan jugo de naranja y 
el valor mas grande indicaria la compania cuyo producto es mas variable o menos 
uniforme. No tendria caso comparar la varianza de una distribution de alturas con 
la varianza de una distribution de puntuaciones de aptitud. En la section 4.4 mos- 
tramos como se utiliza la desviacion estandar para describir una sola distribution de 
observaciones. 

Extenderemos ahora nuestro concepto de varianza de una variable aleatoria X 
para incluir tambien variables aleatorias relacionadas con X. Para la variable alea- 
toria g(X), la varianza se denotara con <x 2 g i x \ y se calculara empleando el siguiente 
teorema. 


Sea X una variable aleatoria con distribution de probabilidad f(x) . La varianza de 
la variable aleatoria g(X) es 

a l(X) = E {W 0 ~ fJ-g(X)?} = “ Vg(X)] 2 f{x) 

X 

si X es discreta, y 

/ OO 

\g{x) ~ g g (X)] 2 f{x) dx 

-OO 

si X es continua. 


Como g(X) es en si misma una variable aleatoria con media p g (x), Como se define en 
el teorema 4.1, de la definition 4.3 se sigue que 

°g( X ) = E{\g{X) -p g {x)]\- 

Asi, cuando se aplica el teorema 4.1 nuevamente a la variable aleatoria \g(X) — p g (x)} 2 > 
la demostracion queda completa. 


Calcule la varianza de g(X) = 2X + 3, donde X es una variable aleatoria con dis- 
tribution de probabilidad 


X 

0 12 3 

f(x) 

1111 

4 8 2 8 


Primero encontramos la media de la variable aleatoria 2X + 3. De acuerdo con el 
teorema 4.1, 

3 

P2X+3 = E(2X + 3) = Y,(2x + 3 )/(x) = 6 . 

x=0 
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Ahora, con el teorema 4.3, tenemos 

v 2 2x +3 = E{[(2X + 3) - y 2x+3 } 2 } = E[{2X + 3 - 6) 2 ] 

3 

= E{ 4X 2 - 12X + 9) = ^(4a; 2 - 12x + 9 )f(x) = 4. 

x=0 


Ejemplo 4.12:1 
Solucion: 


Sea X una variable aleatoria que tiene la funcion de densidad dada en el ejemplo 4.5 
de la pagina 111. Encuentre la varianza de la variable aleatoria g(X ) = 4X + 3. 

En el ejemplo 4.5 encontramos que /Mx + 3 = 8. Ahora, usando el teorema 4.3, 


*4X+3 = E{[(4X + 3) - 8] 2 } = E[( 4X - 5) 2 


r 2 r 2 i /-2 ki 

= / {Ax — 5) 2 — dx = - / (16a: 4 — 40a; 3 + 25a: 2 ) dx = — . 
J - 1 3 3 J _ i 5 


Si g{X , Y) = {X — g x )(Y — donde g, x = E(X) y g Y ~ E(Y), la definicion 4.2 

da un valor esperado que se llama covarianza de X y Y, que denotamos como <r XY o 
cov(X, Y). 


Definicion 4.4: 


Sean X y Y variables aleatorias con distribution de probabilidad conjunta f(x , y). 
La covarianza de X y Y es 


= E[{X - g x ){Y - y Y )\ = J2 ~ ~ dy)f{x, y) 

x y 

si X y Y son discretas, y 

/ oo roo 

/ {x - y x ){y - g y )f{x,y) dx dy 
-oo J — oo 


’XY- 


si X y Yson continuas. 


La covarianza entre dos variables aleatorias es una medida de la naturaleza de 
la asociacion entre ambas. Si valores grandes de A a menudo tienen como resultado 
valores grandes de Y, o valores pequenos de X tienen como resultado valores peque- 
nos de Y, X — y x positiva con frecuencia tendra como resultado Y — y Y positiva, y 
X — y x negativa a menudo tendra como resultado Y — /Xyiregativa. De esta forma, 
el producto {X — fj, x )(Y— ji Y ) tendera a ser positivo. Por otro lado, si con frecuen- 
cia valores grandes de X tienen como resultado valores pequenos de Y, entonces el 
producto {X — fi x )(Y — /i F ) tendera a ser negativo. Asf, el signo de la covarianza 
indica si la relation entre dos variables aleatorias dependientes es positiva o nega- 
tiva. Cuando X y Y son estadisticamente independientes, se puede mostrar que la 
covarianza es cero (vease el corolario 4.5). Lo opuesto, sin embargo, por lo general, 
no es cierto. Dos variables pueden tener covarianza cero e incluso asf no ser estadi's- 
ticamente independientes. Observe que la covarianza solo describe la relation lineal 
entre dos variables aleatorias. Por consiguiente, si una covarianza entre X y Fes 
cero, X y Y quiza tengan una relation no lineal, lo cual significa que no necesaria- 
mente son independientes. 
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Teorema 4.4: 


Prueba: 


Ejemplo 4.13: 


Solucion: 


La formula alternativa que se prefiere para <j xy se establece en el teorema 4.4. 


La covarianza de dos variables aleatorias X y Y con medias p x y /ly, respecti- 
vamente, esta clada por 

a XY = E(XY) — PxVy- 


Para el caso discreto escribimos 

a xY = EE( X ~ ^^){y ~ My)/0D2/) 

x y 

= E E^ - Vxy - Vy x + ALyMf)/ i x i y) 

X y 

= ^2J2 x yf(x,y) - Px^2^2yf(x,y) 

x y x y 

— p Y EE x f( x , y) + PxEy EE f(x,y). 

x y x y 

Como 

Vx = '^2 x f( x , y ) y VY = '^2yf( x ,y) 

x y 

por definicion y, ademas, 

EE/(^) = 1 

x y 

para cualquier distribution discreta conjunta, se sigue que 

a XY = E(XY) — Px^y ~ !- 1 yP x + l- l xf l Y = E(XY) — i-i x /- l Y- 

Para el caso continuo la prueba es identica, pero con las sumatorias reemplazadas 
por integrales. 


En el ejemplo 3.14 de la pagina 92 se describio una situation con el numero de re- 
puestos azules X y el numero de repuestos rojos Y. Cuando se seleccionan al azar 
dos repuestos para boligrafo de cierta caja, se tiene la siguiente distribution de pro- 
babilidad conjunta, 




X 



f(x,y ) 

0 

1 

2 

Hv) 

o 

3 

9 

3 

15 


28 

28 

28 

28 

y i 

3 

14 

3 

14 

0 

3 

7 

2 

1 

28 

0 

0 

1 

28 

9{x) 

5 

14 

15 

28 

3 

28 

i 


Encuentre la covarianza de X y Y. 

Del ejemplo 4.6, vemos que E(XY) = 3/14. Entonces, 

^ = !>(*> = to (u) + (1 ) (!) + (2) (i) = 3- 
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Py = £>%) = ( 0 ) + ( 1 ) + ( 2 ) ( 1 ) 

y = o V V V ' 


1 ' I 

2 ' 


Por lo tanto, 


°x : y— E{XY) - p x p Y — Y 4 i 4 {9 


_9_ 

56 


J 


Ejemplo 4.14:1 La fraccion X de corredores y la fraccion Y de corredoras que compiten en la mara- 
ton se describen mediante la funcion de densidad conjunta 

fir ) = l^ Xy ' 0 - y - x - 1 ’ 

' n en cualquier otro caso. 


\o, 

Encuentre la covarianza de X y Y. 

Solucion: Debemos calcular primero las funciones de densidad marginal. Estas son 

. .. ..3 

g(x) = 


Ux 3 , 

lo. 


0 < x < 1 , 


en cualquier otro caso, 


y 


h ( y ) = 0 < y < 1 , 

\ 0 , en cualquier otro caso. 

De las funciones de densidad marginal dadas arriba, calculamos 

Px = E ( x ) = J 4x 4 dx = y = J 4y 2 (l - y 2 ) dy = 


De las funciones de densidad conjunta dadas, tenemos 

E(XY) = J J 8 x 2 y 2 dx dy = ^. 

Entonces, 

a XF = E(XY) - p x p Y = \ - (I) (^) = 2 ^ 5 ' 

Aunque la covarianza entre dos variables aleatorias brinda information respecto 
de la naturaleza de la relation, la magnitud de < 7 XY no indica nada respecto a la fuer- 
za de la relacion, ya que a XY depende de la escala. Su magnitud dependera de las 
unidades que se miden para X y Y. Hay una version de la covarianza libre de la es- 
cala, que se denomina coeficiente de correlation y que se utiliza ampliamente en 
estadfstica. 


Definition 4.5: 


Sean X y Y variables aleatorias con covarianza <J XY y desviacion estandar cr Y y <J Y , 
respectivamente. El coeficiente de correlation Xybes 


PXY = 


a XY 

a X?Y 


Deberfa quedar claro para el lector que p XY es independiente de las unidades de 
X y Y. El coeficiente de correlation satisface la desigualdad —1 < p XY < 1. Toma un 
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valor cle cero cuando cr XY = 0. Donde hay una dependencia lineal exacta, digamos, 
Y= a + bX, p XY = 1 si b > 0 y p XY = — 1 si b < 0. (Vease el ejercicio 4.48.) El 
coeficiente de correlacion es tema que amerita un estudio mas amplio en el capitulo 
12, donde examinamos la regresion lineal. 


Ej ercicios 


4.33 Use la definition 4.3 de la pagina 116 para en- 
contrar la varianza de la variable aleatoria A' del ejer- 
cicio 4.7 de la pagina 113. 

4.34 Sea A' una variable aleatoria con la siguiente 
distribution de probabilidad: 


X 

-2 3 5 

fix) 

0.3 0.2 0.5 


4.42 Utilice los resultados del ejercicio 4.21 de la pa- 
gina 114, y encuentre la varianza de g( X) = X 2 , donde 
X es una variable aleatoria que tiene la funcion de den- 
sidad que se da en el ejercicio 4.12 de la pagina 113. 

4.43 El tiempo, en minutos, para que un avion obten- 
ga via libre para despegar en cierto aeropuerto es una 
variable aleatoria Y = 3 A — 2, donde X tiene la fun- 
cion de densidad 


Encuentre la desviacion estandar de X. 

4.35 La variable aleatoria X, que representa el nume- 
ro de errores por 100 lineas de codigo de programacion, 
tiene la siguiente distribution de probabilidad: 


X 

2 

3 

4 

5 

6 

fi x ) 

0.01 

0.25 

0.4 

0.3 

0.04 


Aplique el teorema 4.2 y encuentre la varianza de A'. 


\e x > 0 

0, en cualquier otro caso. 

Encuentre la media y la varianza de la variable alea- 
toria Y. 

4.44 Encuentre la covarianza de las variables aleato- 
torias X y Adel ejercicio 3.39 de la pagina 101. 


4.36 Suponga que las probabilidades son 0.4, 0.3, 0.2 
y 0.1, respectivamente, de que 0, 1, 2 o 3 fallas de ener- 
gia electrica afecten cierta subdivision en cualquier ano 
dado. Encuentre la media y la varianza de la variable 
aleatoria A' que representa el numero de fallas de ener- 
gia que afectan esta subdivision. 

4.37 La ganancia de un distribuidor, en unidades de 
$5000, para un automovil nuevo es una variable aleato- 
ria X que tiene la funcion de densidad que se presenta 
en el ejercicio 4.2 de la pagina 113. Encuentre la va- 
rianza de X. 

4.38 La proportion de individuos que responden cier- 
ta encuesta que se manda por correo es una variable 
aleatoria A', que tiene la funcion de densidad que se 
da en el ejercicio 4.14 de la pagina 113. Encuentre la 
varianza de A'. 


4.45 Encuentre la covarianza de las variables aleato- 
rias X y Y del ejercicio 3.49 de la pagina 102. 

4.46 Encuentre la covarianza de las variables aleato- 
rias X y Y del ejercicio 3.44 de la pagina 102. 

4.47 Refierase a las variables aleatorias cuya funcion 
de densidad conjunta esta dada en el ejercicio 3.40 de 
la pagina 101, y encuentre la covarianza de X y Y. 

4.48 Dada una variable aleatoria A, con desviacion 
estandar a x y una variable aleatoria Y= a + bX, de- 
muestre que si b < 0, el coeficiente de correlacion p XY = 
-1, y si b > 0, p XY = 1. 

4.49 Considere la situation del ejercicio 4.32 de la pa- 
gina 115. La distribution del numero de imperfecciones 
por 10 metros de tela sintetica esta dada por 


4.39 El numero total de horas, en unidades de 100 
horas, que una familia utiliza una aspiradora en un 
periodo de un ano es una variable aleatoria A, cuya 
funcion de densidad se da en el ejercicio 4.15 de la pa- 
gina 114. Encuentre la varianza de A. 

4.40 Refierase al ejercicio 4.14 de la pagina 113, y 
encuentre &g( X ) para la funcion g( A) = 3A' 2 + 4. 

4.41 Encuentre la desviacion estandar de la variable 
aleatoria g( X) = (2X + l) 2 del ejercicio 4.17 de la 
pagina 114. 


X 

0 

12 3 

4 

f( x ) 

0.41 

0.37 0.16 0.05 

0.01 


Encuentre la varianza y la desviacion estandar del nu- 
mero de imperfecciones. 

4.50 En una tarea de laboratorio, si el equipo esta 
funcionando, la funcion de densidad del resultado ob- 
servado, A, es 

= J^ 1 “*)> 0 < s < 1, 

\0, en cualquier otro caso. 

Encuentre la varianza y la desviacion estandar de A. 



4.3 Medias y varianzas de combinaciones lineales de variables aleatorias 


123 


4.3 Medias y varianzas de combinaciones lineales 
de variables aleatorias 

Desarrollemos ahora algunas propiedades utiles que simplificaran los calculos de me- 
dias y las varianzas de variables aleatorias que aparecen en los siguientes capitulos. 
Estas propiedades nos permitiran tratar con las esperanzas matematicas, en relation 
con otros parametros que ya se conocen o que se calculan con facilidad. Todos los re- 
sultados que presentamos aqui son validos para variables aleatorias tanto continuas 
como discretas. Las demostraciones se dan solo para el caso continuo. Comenzamos con 
un teorema y dos corolarios que deberfan ser, de forma intuitiva, razonables para 
el lector. 


Teorema 4.5: 


Si a y b son constantes, entonces, 

E(aX +b) = aE(X) + b. 


Prueba: Por la definition de un valor esperado, 

/ OO f‘OQ nOO 

(ax + b)f(x) dx = a xf(x) dx + b f(x) dx. 

-oo J — OO J — OO 

La primera integral de la derecha es E(X)\ y la segunda integral es igual a 1. Por 
lo tanto, 


E(aX +b) = aE(X) + b. 


Corolario 4.1: 


A1 hacer a = 0, vemos que E(b) = b. 


Cor olario 4.2: A1 hacer 6 = 0, vemos que E(aX) = aE(X). 


Ejemplo 4.15:1 A1 aplicar el teorema 4.5 a la variable aleatoria discreta f(X) = 2X — 1, resuelva de 
nuevo el ejemplo 4.4. 

Solucion: De acuerclo con el teorema 4.5, escribimos 


E(2X - 1) = 2 E(X) - 1. 


Asf, 

9 

^ = E(X) = ^ ~2,xf(x ) 


c=4 


^< 4 >i h) + v(j-2 


< 6 >(i) + p)(i 


< 8 >lj + < 9 > (i)-T 


Por lo tanto, 


Wx-i = (2) ( y ) - 1 = $12.67, 


como antes. 


J 
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Ejemplo 4.16:1 
Solucion: 


Para resolver de nuevo el ejemplo 4.5, aplique el teorema 4.5 a la variable aleatoria 
continua g(X) = 4X + 3. 

En el ejemplo 4.5 utilizamos el teorema 4.5 para escribir 


E( 4X + 3) = 4 E(X) + 3. 


Asf, 

E(x) = L x (y) dx = L ,T d * = j' 


Por lo tanto, 

E( 4X + 3) = (4) (0 + 3 = 8, 

como antes. 


J 


Teorema 4.6: 


El valor esperado de la suma o diferencia de dos o mas funciones de una variable 
aleatoria X es la suma o diferencia de los valores esperados de las funciones. Es 
decir, 

E\g(X) ± h(X)\ = E[g(X )] ± E[h(X)}. 


Prueba: Por definicion, 


E[g(X) ± h(X)} = 



\g(x) ± h(x)\f(x) dx 


/: 


g(x)f(x) dx± h(x)f(x) dx 


= E[g(X)]±E[h(X)}. 


J 


Ejemplo 4.17:1 Sea X una variable aleatoria con la siguiente distribucion de probabilidad: 


X 

0 12 3 

f(x) 

~L I (j T~ 

3 2 6 


Encuentre el valor esperado de Y = (X — l) 2 . 

Solucion: A1 aplicar el teorema 4.6 a la funcion Y = ( X — l) 2 , escribimos 

E[{X - l) 2 ] = E(X 2 -2X + 1) = E(X 2 ) - 2 E{X) + E{ 1). 

Del corolario 4.1, E( 1) = 1, y por calculo directo 

E(X) = (0) Q) + (1) Q) + (2) (0) + (3) Q) = 1, 
y 

E(X 2 ) = (0) Q) + (1) Q) + (4) (0) + (9) Q) = 2. 
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Ejemplo 4.18: 


Solucion: 


Teorema 4.7: 


Prueba: 


De aquf, 

E[(X — l) 2 ] = 2 — (2)(1) + 1 = 1. 


J 


La demanda semanal de cierta bebida, en miles de litros, en una cadena de tiendas 
de abarrotes es una variable aleatoria continua g(X ) = X 2 + X — 2, donde X tiene 
la funcion de densidad 

(2(x-l), 1 < x < 2, 

\0, en cualquier otro caso. 


Encuentre el valor esperado para la demanda semanal de tal bebida. 

Por el teorema 4.6, escribimos 

E{X 2 + X - 2) = E(X 2 ) + E(X) - E{ 2). 

Del corolario 4.1, E( 2) = 2 y, por integration directa, 

E(X) = J 2x(x — 1) dx 
y 

E{X 2 ) = J 2x 2 (x - 1 ) dx 

Entonces, 

E(X 2 +X -2) = 

de manera que la demanda semanal promedio de la bebida en esta cadena de tiendas de 
abarrotes es de 2500 litros. 

Suponga que tenemos dos variables aleatorias X y Y con distribution de proba- 
bilidad conjunta f(x, y). Dos propiedades adicionales que seran muy utiles en los 
capitulos siguientes incluyen los valores esperados de la suma, la diferencia y el 
producto de estas dos variables aleatorias. Primero, sin embargo, demostremos un 
teorema sobre el valor esperado de la suma o diferencia de funciones de las variables 
dadas. Este, por supuesto, es tan solo una extension del teorema 4.6. 


= 2 / ( x 2 — x) dx = — , 

J l 3 


= 2 [ ( x 3 — x 2 ) dx = — . 

J l 6 


17 5 5 

~6 + 3 ~ 2 ~ 2’ 


El valor esperado de la suma o diferencia de dos o mas funciones de las variables 
aleatorias X y Y es la suma o diferencia de los valores esperados de las funciones. 
Es decir, 

E\g(X, Y ) ± h(X, Y)] = E[g{X , Y)] ± E[h(X , Y)]. 


Por la definicion 4.2, 


n oo 

[g{x,y) ± h(x,y)\f(x,y) dx dy 

-OO 

h(x, y)f(x, y) dx dy 


COO c OO 


c OO c OO 


g{x,y)f{x,y) dx dy± 
=E[g(X,Y)]±E[h(X,Y)]. 


-OO J —oo 


-oo J — oo 




126 


Capitulo 4 Esperanza matematica 


Corolario 4.3: 


Corolario 4.4: 


Teorema 4.8: 


Prueba: 


Corolario 4.5: 


Prueba: 


Ejemplo 4.19: 


A1 hacer g(X, Y ) = g(A) y h(X, Y) = h(Y), vemos que 

E[g(X) ± h(Y)} = E[g(X)} ± E[h(Y)]. 


A1 hacer g(X, Y) = X y h(X, Y) = Y, vemos que 

E[X ± Y] = E[X ] ± E[Y] . 


Si X representa la produccion diaria de algun articulo de la maquina A, y Y\& 
produccion diaria de la misma clase de articulo de la maquina B , entonces X + Y 
representa el numero total de articulos que ambas maquinas producen diariamente. 
El corolario 4.4 establece que la produccion promedio diaria para ambas maquinas 
es igual a la suma de la produccion promedio diaria de cada maquina. 

Sean X y Y dos variables aleatorias independientes. Entonces, 

E(XY) = E(X)E(Y). 


Por la definicion 4.2, 


/ OO POO 

/ xyf(x,y)dxdy. 

-oo J —oo 

Como X y Y son independientes, escribimos 

f(x, y) = g(x)h(y), 

donde g(x) y h(y) son, respectivamente, las distribuciones marginales de X y Y. De 
aqui, 

/ OO POO POO POO 

/ xyg{x)h{y) dx dy = / xg{x) dx / yh(y) dy 
-oo J — oo J —oo J —oo 

= E(X)E(Y). 

Para variables discretas, el teorema 4.8 se ilustra lanzando un dado verde y uno 
rojo. Con la variable aleatoria X representamos el resultado del dado verde, y con la 
variable aleatoria Y el resultado del dado rojo. Entonces, XY representa el producto 
de los numeros que ocurren en el par de dados. A largo plazo, el promedio de los 
productos de los numeros es igual al producto del numero promedio que ocurre en el 
dado verde y el numero promedio que ocurre en el dado rojo. 


Sean X y Y dos variables aleatorias independientes. Entonces, a XY = 0. 


La demostracion puede realizarse con los teoremas 4.4 y 4.8. 


En la produccion de microchips de arseniuro de galio, se sabe que la proporcion entre 
galio y arseniuro es independiente de la produccion de un alto porcentaje de obleas 
manejables, que son los principales componentes de los microchips. Denotemos 
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con X la proportion de galio y arseniuro, y con Y el porcentaje de microobleas ma- 
nejables producidas durante un periodo de 1 hora. X y Y son variables aleatorias 
independientes con la siguiente densidad conjunta 


f(x,y ) 


x(1 + 3i/2) , 0 < a: < 2, 0 < y < 1, 

0, en cualquier otro caso. 


Ilustre que E(XY) = E(X)E(Y), como sugiere el teorema 4.8. 
Solucion: Por definicion, 


,1 r 2 


E(XY) = 


E(X) = 


xyf(x,y) dx dy = 


ci r 2 ^2 


X y( 1 + 3 y 2 ) 


dx dy 


I o Jo 


/o Jo 


x 3 y( 1 + 3y 2 ) 


12 


x=2 


x—0 


dy r'w+m dy = i' 


r-1 /*2 


fi r2 ~,2 


xf{x,y) dx dy = 


x\l+3 y 2 ) 


dx dy 


lo Jo 


x 3 (1 + 3 y 2 ) 


12 


x=2 


/0 JO 

p 1 o/i i o„.2 


c=0 




/o ao 
1 ^.2 


£pO = f 2 yf(x,y) dx dy = f 1 f Xy{1 1 3y2) dx dy 
Jo Jo Jo Jo 4 


l 


x 2 y( 1 + 3 y 2 ) 


x=2 


iy= by_0^1 dy = l 


c=0 


De aqui, 


E ( X )E(Y) = ( j) (jh = f-E(*n 


Concluimos esta section con la demostracion de dos teoremas que son utiles para 
calcular varianzas o desviaciones estandar. 


Teorema 4.9: 


Prueba: 

a a X+b = E{[(aX + b) - /JaX+b] 2 }- 


Si a y b son constantes, entonces, 

2 2 2 2 2 
°aX+b = a a x = a a . 


Por definicion, 


Entonces, 


y a x+b = E(aX + b) = ay + b 


por el teorema 4.5. Por lo tanto, 

a aX+b = E[(aX + b — ay — b) 2 } = a 2 E[(X — y) 2 ) = a 2 a 2 . 


J 
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Corolario 4.6: 


Corolario 4.7: 


Teorema 4.10: 


Prueba: 


Corolario 4.8: 


Corolario 4.9: 



El corolario 4.6 establece que la varianza no cambia si se suma o se resta una 
constante a la variable aleatoria. La suma o resta de una constante simplemente 
corre los valores de X a la derecha o a la izquierda; pero no cambia su variabilidad. 
Sin embargo, si una variable aleatoria se multiplica por una constante o se divide 
entre una constante, entonces el corolario 4.7 establece que la varianza se multiplica 
por el cuadrado de la constante o se divide entre el cuadrado de la constante. 


Si X y Y son variables aleatorias con distribution de probabilidad conjunta f(x, y), 
entonces, 

a aX+bY = a 2 4 + b 2 Uy + 2aba XY . 


Por definition, 


a aX+bY ~ E{[(aX + bY) - PaX+bY ] 2 }- 


Ahora, 

PaX+bY = E{aX + bY) = aE(X) + bE(Y) = ap x + bp Y , 
utilizando el corolario 4.4 seguido por el corolario 4.2. Por lo tanto, 

vlx+bY = E{[a{X -p x ) + b(Y - p Y )] 2 } 

= a 2 E[(X - /x x ) 2 ] + b 2 E[(Y - ii Y ) 2 } + 2 abE[(X - n x )(Y - n Y )] 
— cl 2 (j 2 ^ + b 2 (j y + 2 db(7 xy ' 


Si X y Y son variables aleatorias independientes, entonces, 

2 2 2 , j.2 2 

a aX+bY ~ a a x + ^ °V- 


El resultado que se establece en el corolario 4.8 se obtiene a partir del teorema 
4.10, que se relaciona con el corolario 4.5. 

Si X y Y son variables aleatorias independientes, entonces, 

o a x-bY = a 2 a 2 x + b 2 u 2 . . 


El corolario 4.9 se obtiene al reemplazar b por —b en el corolario 4.8. A1 genera- 
lizar a una combinacion lineal de n variables aleatorias independientes, escribimos 
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Corolario 4.10: 


Si Xi, X' 2 , . . . , X n son variables aleatorias independientes, entonces, 

^a 1 X 1 +a 2 X 2 +-+a n X n = a Wx x + a Wx 2 + ' ' ’ + a Wx n - 


Ejemplo 4.20:1 
Solucion: 


Si X y Y son variables aleatorias con varianzas a 2 x = 2, a 2 = 4, y covarianza 
a XY = —2, encuentre la varianza de la variable aleatoria Z = 3X — 4 Y + 8. 

a z = a 3.\-4Y+8 = a 3X-4V (p 0r e l teorema 4.9) 


= 9o x + 16a 2 — 24a xr (por el teorema 4.10) 

= (9)(2) + (16)(4) - (24)(— 2) = 130. 


Ejemplo 4.21:1 Denotemos con X y Y la cantidad de dos tipos diferentes de impurezas en un lote de 
cierto producto qunnico. Suponga que X y Y son variables aleatorias independientes 
con varianzas a x = 2 y a 2 = 3. Encuentre la varianza de la variable aleatoria Z = 
3X - 2Y+ 5. 

Solucion: 22 2 / , . . n N 

a z = CT 3 A'- 2 y +5 = ° 3 X- 2 Y IP 01 ' el teorema 4.9) 

= 9a 2 + 4o 2 (por el teorema 4.10) 

= (9)(2) + (4) (3) = 30. 

^Que sucede en el caso de una funcion no lineal? 

En los apartados anteriores estudiamos propiedades de funciones lineales de varia- 
bles aleatorias por razones muy importantes. En los capltulos 8 a 15, mucho de lo 
que se examina e ilustra son problemas practicos y del mundo real, en los cuales el 
analista construye un modelo lineal para describir un conjunto de datos y, de esta 
manera, describir o explicar el comport amiento de un fenomeno cientffico espectfico. 
As!, resulta natural que se encuentren los valores esperados y las varianzas de com- 
binaciones lineales de variables aleatorias. No obstante, hay situaciones en que las 
propiedades de las funciones no lineales de variables aleatorias se vuelven impor- 
tantes. En efecto, hay muchos fenomenos cienttficos de naturaleza no lineal, donde 
el modelado estadi'stico que utiliza funciones no lineales se vuelve muy importante. 
De hecho, incluso una funcion simple de variables aleatorias, digamos, Z — X/Y, 
ocurre con bastante frecuencia en la practica y a diferencia de las reglas dadas 
anteriormente en esta section para los valores esperados de combinaciones lineales 
de variables aleatorias, no hay una simple regia general. Por ejemplo, 

E(Z) = E(X/Y) ± E(X)/E(Y), 

excepto en circunstancias muy especiales. 

El material dado por los teoremas 4.5 a 4.10 y varios corolarios son bastante uti- 
les en cuanto a que no hay restricciones en la forma de la densidad o las funciones de 
probabilidad, aparte de la propiedad de independencia cuando esta se requiere, como 
en los corolarios que siguen al teorema 4.10. Para ilustrar, considere el ejemplo 4.21; 
la varianza de Z = 3X — 2 Y + 5 no requiere restricciones en las distribuciones de 
las cantidades X y Y de los dos tipos de impurezas. Solo se requere la independencia 
entre X y Y. Por consiguiente, en verclad tenemos a nuestra disposition la capaci- 
dad de encontrar l-ig(X) y a l(x) P ara cualquier funcion g(-) a partir de los principios 
iniciales de los teoremas 4.1 y 4.3, donde se supone que se conoce la distribution 
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f(x) correspondiente. Los ejercicios 4.40, 4.41 y 4.42, entre otros, ilustran el uso de 
tales teoremas. De manera que si g(x) es una funcion no lineal y se conoce la funcion 
de densidad (o funcion de probabilidad en el caso discreto), p g (x) y a g(x) P ue de 
evaluarse con exactitud. No obstante, como en el caso de las reglas dadas para com- 
binaciones lineales, ^habrfa reglas para funciones no lineales que puedan utilizarse 
cuando no se conoce la forma de la distribution de las variables aleatorias pertinentes? 

En general, suponga que X es una variable aleatoria y que Y = g(x). La solu- 
tion general para E(Y) o Var(Y) puede ser dificil y depende de la complejidad de 
la funcion g(-). Sin embargo, hay aproximaciones diponibles que dependen de una 
aproximacion lineal de la funcion g(x). Por ejemplo, suponga que denotamos E(X) 
como p y Var[X) = o 2 x . Entonces, una aproximacion a las series de Taylor de g{x) 
alrededor de X = pX da 


g{x) = g(p x ) + 


dg(x) 


dx 


x=n x 


(X - p x ) + 


d 2 g(x) 

dx 2 


x=n x 


fo- Px) 2 
2 


Como resultado, si truncamos el termino lineal y tomamos el valor esperado de 
ambos lados, obtenemos E[g(X)\ ss g(p x ), que ciertamente es intuitivo y en ciertos 
casos ofrece una aproximacion razonable. No obstante, si incluimos el termino de 
segundo orclen de las serie de Taylor, entonces tenemos un ajuste de segundo orden 
para esta aproximacion de primer orden como 


Aproximacion de 
E[g{X)} 


E[g(X)] « g(p x ) + 


d 2 g{x) 


dx 2 


x=\x x 


Ejemplo 4.22:1 Dada la variable aleatoria X con media p x y varianza o 2 , determine la aproxima- 
cion de segundo orden para E(e x ). 

Solucion: Como = e x y yyyr = e x , obtenemos E(e x ) « e fix (1 + o 2 x /2). 

De manera similar, podemos desarrollar una aproximacion para Var[g(x)\ al 
tomar la varianza de ambos lados de la expansion de la serie de Taylor de primer 
orden de g(x). 


Aproximacion de 
Var\g(x)\ 


Var[g{X)\ 


\9g{x)] 2 


dx 


x=n x 


a 


2 

x * 


Ejemplo 4.23:1 Dada la variable aleatoria X como en el ejemplo 4.22, determine una formula aproxi- 
mada para Var[g(x)]. 

Solucion: De nuevo, = e x ; por lo que Var(X) ss e 2lMx a x . 

Tales aproximaciones pueden extenderse a las funciones no lineales de mas de 
una variable aleatoria. 

Dado un conjunto de variables aleatorias independientes Xi, X 2 , ■ ■ ■ ,Xk con me- 
dias pi, P 2 -, ■ ■ Pk y varianzas erf , o 2 , . . . , cr^, respectivamente, sea 

Y = h(X u X 2 ,...,X k ) 

una funcion no lineal; entonces tenemos las siguientes aproximaciones para E{Y) y 
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Var(Y ): 


E{Y) ss h(fj, i, a* 2, • • • , wO + “T 


d 2 h(xi,x 2 , ...,x k ) 
dx ? 


Xi=m , l<i</c 


yar(y) « 53 


dh{xi,x 2 , ..., x k ) 
dx, 


1 2 


a?. 


Xi=f±i , l<i<k 


Ejemplo 4.24:1 Considere dos variables aleatorias independientes, ly Z, con medias [i x , n z y va- 
rianzas u 2 y erf, respectivamente. Considere una variable aleatoria 

y= x/z. 

Determine aproximaciones para E(Y) y Var{Y). 

Solucion: Para E(Y), debemos usar || = \ y || = — Asf, 


9a; 2 


= 0, 


d 2 y 2x 
dz 2 z 3 ' 


Como resultado, 


s(y) 


[^x l^x 2 


1 + 


dz dz dz V dz 

y la aproximacion para la varianza de y esta dada por 


1 o dx 2 1 


Var(Y) « — cr H — — cr H ^-cr z 

/4 di dS 


4 

di 


4.4 Teorema de Chebyshev 

En la section 4.2 establecimos que la varianza de una variable aleatoria nos dice algo 
acerca de la variabilidad de las observaciones alrededor de la media. Si una variable 
aleatoria tiene una varianza o desviacion estandar pequena, esperariamos que la ma- 
yoria de los valores se agruparan alrededor de la media. Por lo tanto, la probabilidad 
de que una variable aleatoria tome un valor dentro de cierto intervalo alrededor de 
la media es mayor que para una variable aleatoria similar con una desviacion estan- 
dar mayor. Si pensamos en la probabilidad en terminos de un area, esperariamos una 
distribution continua con un valor grande de a que indique una variabilidad mayor 
y, por lo tanto, esperariamos que el area este mas extendida, como en la figura 4.2a). 
Sin embargo, una desviacion estandar pequena deberia tener la mayor parte de su 
area cercana a /i, como en la figura 4.26). 

Podemos argumentar lo mismo para una distribution discreta. En el histograma 
de probabilidad de la figura 4.36), el area se extiende mucho mas que en la figura 
4.3a), lo cual indica una distribution mas variable de mediciones o resultados. 

El matematico ruso P. L. Chebyshev (1821-1894) descubrio que la fraction del 
area entre cualesquiera dos valores simetricos alrededor de la media esta relacionada 
con la desviacion estandar. Como el area bajo una curva de distribution de proba- 
bilidad, o en un histograma de probabilidad, suma 1, el area entre cualesquiera dos 
numeros es la probabilidad de que la variable aleatoria tome un valor entre es- 
tos numeros. 
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x 


b) 


Figura 4.2: Variabilidad de observaciones continuas alrededor de la media. 


El siguiente teorema, debido a Chebyshev, da una estimation conservadora de la 
probabilidad de que una variable aleatoria tome un valor dentro de k desviaciones 
estandar de su media, para cualquier mimero real k. Proporcionaremos la demostra- 
cion solo para el caso continuo y se deja el caso discreto como ejercicio. 


Teorema 4.11: 


(Teorema de Chebyshev) La probabilidad de que cualquier variable aleato- 
ria X tome un valor dentro de k desviaciones estandar de la media es al menos 
1 — 1/fc 2 . Es decir, 

P{p — ka < X < p + ka) > 1 — — 7 . 


a) 


M 

b) 


x 


Figura 4.3: Variabilidad de observaciones discretas alrededor de la media. 
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Prueba: 


Ejemplo 4.25: 


Solucion: 


Por nuestra definition anterior de la varianza de X escribimos 


/ OO 

{x ~ n) 2 f{x) dx 

-OO 

/ , fj,—ka nfj,-\-ka 

(x — /i ) 2 f(x) dx + (x — /x ) 2 f{x) dx 

-oo J fi—ka 

/•OO 

+ (x- /x) 2 f(x ) dx 

J fi+ka 

/ fi—ka roo 

( x — /i) 2 f(x) dx+ (x — n ) 2 f(x) dx, 
-oo J u-\-ka 


ya que la segunda de las tres integrales es no negativa. Asf, como \x — fi\ > ka, 
para cualquier x > f-i + ka o x < /j — ka, tenemos que (x — /. i ) 2 > k 2 a 2 en ambas 
integrales restantes. Se sigue que 

/ / i—ka /*oc 

k 2 a 2 f(x) dx+ k 2 a 2 f(x) dx, 

-oo J /j,-\-kcr 


y que 


De aqut, 


nfj,—ka 


P(fi — ka < X < fi + 



/x+/ccr 
— ka 


f(x) dx > 1 


1 


con lo cual queda establecido el teorema. 

Para k = 2 el teorema establece que la variable aleatoria X tiene una proba- 
bilidad de al menos 1 — l/2 2 = 3/4de caer clentro de clos desviaciones estandar de 
la media. Es decir, tres cuartos o mas de las observaciones de cualquier distribution 
yacen en el intervalo /x ± 2cr. De manera similar, el teorema indica que al menos 
ocho novenos de las observaciones de cualquier distribution caen en el intervalo 
/i ± 3(7. 


Una variable aleatoria X tiene una media fi = 8, una varianza a 2 = 9, y distribution 
de probabilidad desconocida. Encuentre 

a) P(— 4 < X < 20), 

b) P(\X — 8| > 6). 

a) P(—4 < X < 20) = P[ 8 - (4) (3) < X < 8 + (4)(3)] > f|. 

b) P(\X — 8| > 6) = 1 — P(\X — 8| < 6) = 1 — P(— 6 < X - 8 < 6) 

= 1 — P[8 — (2)(3) < X < 8 + (2)(3)] < i 

El teorema de Chebyshev tiene validez para cualquier distribution de observa- 
ciones y, por esta razon, los resultados son generalmente debiles. El valor que el 
teorema proporciona es solo un lfmite inferior. Es decir, sabemos que la probabilidad 
de una variable aleatoria que cae dentro de dos desviaciones estandar de la media no 
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puede ser menor que 3/4, pero nunca sabemos cuanto podrfa ser en realidad. Unica- 
mente cuando se conoce la distribucion de probabilidad podemos determinar pro- 
babilidades exactas. Por esta razon llamamos al teorema resultado de distribucion 
libre. Cuando se supongan distribuciones especfficas en los siguientes capftulos, los 
resultados seran menos conservadores. El uso del teorema de Chebyshev se restringe 
a situaciones donde se desconoce la forma de la distribucion. 


Ej ercicios 


4.51 Refierase al ejercicio 4.35 de la pagina 122, y en- 
cuentre la media y la varianza de la variable aleatoria 
discreta Z = 3 A — 2, donde A' representa el numero de 
errores por 100 li'neas de codigo. 

4.52 Usando los teoremas 4.5 y 4.9, encuentre la media 
y la varianza de la variable aleatoria Z = 5 A + 3, don- 
de X tiene la distribucion de probabilidad del ejercicio 
4.36 en la pagina 122. 

4.53 Suponga que una tienda de abarrotes compra 
5 envases de leche descremada al precio de mayoreo 
de $1.20 por envase y la vende a $1.65 por envase. 
Despues de la fecha de caducidad, la leche que no se 
vende se retira de los anaqueles y el tendero recibe un 
credito del distribuidor igual a tres cuartos del precio 
de mayoreo. Si la distribucion de probabilidad de la va- 
riable aleatoria X, el numero de envases que se venden 
de este lote, es 


X 

0 

l 

2 

3 

4 

5 

/(*) 

1 

15 

2 

15 

2 

15 

3 

15 

4 

15 

3 

15 


encuentre la utilidad esperada. 

4.54 Repita el ejercicio 4.43 de la pagina 122, con la 
aplicacion de los teoremas 4.5 y 4.9. 

4.55 Sea A' una variable aleatoria con la siguiente 
distribucion de probabilidad: 


X 

-3 6 9 

/(*) 

1 1 1 

6 2 3 


2 


Encuentre E(X) y E( A' 2 ) y, despues, con el uso de es- 
tos valores, evalue E[(2X + l) 2 ]. 

4.56 El tiempo total, medido en unidades de 100 ho- 
ras, que un adolescente utiliza su estereo en un perio- 
do de un ano es una variable continua A que tiene la 
funcion de densidad 

( x, 0 < x < 1, 

2 — x, 1 < x < 2, 

0, en cualquier otro caso. 

Utilice el teorema 4.6 para evaluar la media de la va- 
riable aleatoria Y = 60X 2 + 39 A, donde Y es igual al 
numero de kilowatt-hora que gasta al ano. 


4.57 Si una variable aleatoria X se define de manera 
que 

E[(X — l) 2 ] = 10, E[(X — 2) 2 ] = 6, 
encuentre p y a 2 . 

4.58 Suponga que X y Eson variables aleatorias inde- 
pendientes que tienen la distribucion de probabilidad 
conjunta 


f(x,y) 

2 

X 

4 

l 

0.10 

0.15 

y 3 

0.20 

0.30 

5 

0.10 

0.15 


Encuentre 

a) E( 2 A - 34); 

b) E{XY). 

4.59 Use el teorema 4.7 para evaluar E(2XY 2 — X 2 Y) 
para la distribucion de probabilidad conjunta que se 
muestra en la tabla 3.1 de la pagina 92. 

4.60 Se crean 70 nuevos puestos de trabajo en una 
planta de ensamble automotriz; pero 1000 aspirantes 
solicitan los 70 puestos. Para seleccionar a los 70 me- 
jores entre los aspirantes, la armadora aplica un exa- 
men que cubre habilidad mecanica, destreza manual y 
capacidad matematica. La calificacion media de este 
examen resulta 60, y las calificaciones tienen una des- 
viacion estandar de 6. ^Una persona que tiene una 
calificacion de 84 puede obtener uno de los trabajos? 
[Sugerencia: Utilice el teorema de Chebyshev.] Suponga 
que la distribucion es simetrica alrededor de la media. 

4.61 Una empresa electrica fabrica una bombilla de 
luz de 100 watts que, de acuerdo con las especificacio- 
nes escritas en la caja, tiene una vida media de 900 
horas con una desviacion estandar de 50 horas. A lo 
mas, 7que porcentaje de las bombillas no duran al me- 
nos 700 lioras? Suponga que la distribucion es simetrica 
alrededor de la media. 

4.62 Una companla local fabrica cable telefonico. La 
longitud promedio del cable es de 52 pulgadas con una 
desviacion estandar de 6.5 pulgadas. A lo mas, 7que 
porcentaje del cable telefonico de esta compani'a excede 
71.5 pulgadas? Suponga que la distribucion es simetri- 
ca alrededor de la media. 
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4.63 Suponga que lanza 500 veces un dado balan- 
ceado de 10 lados (0, 1, 2, . . . , 9). Con el teorema de 
Chebyshev, calcule la probabilidad de que la media de la 
muestra, X, este entre 4 y 5. 

4.64 Si X y Yson variables aleatorias independientes 
con varianzas a\ = 5 y a\ = 3, encuentre la varianza 
de la variable aleatoria Z = —2X + 4 Y — 3. 


4.71 Si la funcion de densidad conjunta de X y Y 
esta dada por 

f, ) = ff(* + 2y), 0 < a; < 1 , 1 < y < 2, 

\ 0, en cualquier otro caso, 

encuentre el valor esperado de g(X,Y) = yj + X 2 Y. 


4.65 Repita el ejercicio 4.64 si X y Y no son indepen- 
dientes y a XY = 1- 

4.66 Una variable aleatoria X tiene una media fj, = 
12, una varianza cr 2 = 9, y una distribucion de proba- 
bilidad desconocida. Usando el teorema de Chebyshev, 
estime 

a) P ( 6 < X < 18); 

b) P(3 < X < 21). 


4.72 Sea A' el numero que ocurre cuando se lanza un 
dado verde y Y el numero que ocurre cuando se lan- 
za un dado rojo. Encuentre la varianza de la variable 
aleatoria 

a) 2X - Y; 

b) X + 3 Y- 5. 

4.73 Considere una variable aleatoria X con funcion 
de densidad 


4.67 Una variable aleatoria X tiene una media /.i = 10 
y una varianza o 2 = 4. Utilizando el teorema de Che- 
byshev, encuentre 

a) P(\X - 10| > 3); 

b ) P(\X - 10| < 3); 

c) P{ 5 < X < 15); 

d) el valor de la constante c tal que 

P{ \X - 10| > c) < 0.04. 

4.68 Calcule P(/_ i — 2a < X < fj, + 2a), donde X 
tiene la funcion de densidad 

j.,, _ ( 6x(l — a;), 0 < x < 1, 

\0, en cualquier otro caso 

y compare con el resultado dado por el teorema de 
Chebyshev. 

4.69 Sea X el numero que ocurre cuando se lanza un 
dado rojo y Yel numero que sale cuando se lanza un dado 
verde. Encuentre 

a) E( X + Y); 

b) E(X - Y); 

c) E(XY). 

4.70 Suponga que A' y Yson variables aleatorias in- 
dependientes con densidades de probabilidad y 


0 < x < 5, 

en cualquier otro caso. 

a) Encuentre y, = E( X) y a 2 = E[{ X — y) 2 \. 

b) Demuestre que el teorema de Chebyshev es valido 
para A; = 2 y k = 3. 

4.74 La potencia Pen watts que se disipa en un cir- 
cuito electrico con resistencia R se sabe que esta dada 
por P = I 2 R, donde / es la corriente en amperes y R 
es una constante fija en 50 ohms. Sin embargo, I es 
una variable aleatoria con = 15 amperes y a 2 = 0.03 
amperes 2 . De aproximaciones numericas a la media y a 
la varianza de la potencia P. 

4.75 Considere el ejercicio de repaso 3.79 de la pagi- 
na 105. Las variables aleatorias X y Y representan el 
numero de vehfculos que llegan a dos esquinas de calles 
separadas durante cierto periodo de 2 minutos en el 
dfa. La distribucion conjunta es 

/(*’») = 4(is)'B’ 

para x = 0, 1, 2, ... , yj; = 0, 1,2,..., 

a) Determine E{X), E(Y), Var(X) y Var(Y). 

b) Considere Z = X + Y, la suma de ambas. Encuentre 
E(Z) y Var(Z). 



y 


sW = {(T 

'•<»> - {o’’ 


x > 2, 

en cualquier otro caso, 


0 < y < 1, 

en cualquier otro caso. 


Encuentre el valor esperado de Z = X Y. 


4.76 Considere el ejercicio de repaso 3.66 de la pagi- 
na 104. Hay dos lfneas de servicio. Las variables alea- 
torias X y Yson la proportion del tiempo que la li'nea 
1 y la li'nea 2 estan en funcionamiento, respectivamen- 
te. La funcion de densidad de probabilidad conjunta 
para (X, Y) esta dada por 

f, x y \ = /§(* 2 + V 2 ). 0 <*,»<!, 

\0, en cualquier otro caso. 
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a) Determine si A' y Y son independientes o no. 

b) Resulta interesante saber algo acerca de la propor- 
tion de Z = X -f- Y, la suma de las dos proporciones. 
Encuentre E(X + Y). Tambien encuentre E(XY). 

c) Encuentre Var( X), Var(Y) y Cov(X,Y). 

d ) Encuentre Var( X + V). 

4.77 El periodo Yen minutos que se requiere para ge- 
neral’ un reflejo liumano ante el gas lacrimogeno tiene 
funcion de densidad 

\e ~ v ^ A , 0 < y < oo, 

0, en cualquier otro caso. 


a ) Grab que la funcion de densidad. 

b) Calcule E(Y), E(Y 2 ) y Var{Y). 

4.79 Para la situation que se describe en el ejercicio 
4.78, calcule E(e Y ) con el teorema 4.1, es decir, usando 

E(e Y ) = J e y f(y)dy. 

Luego calcule E(e^ ) sin utilizar f(y), sino usando el 
ajuste de segundo orden para la aproximacion de pri- 
mer orden de E(e^ ). Haga comentarios. 


a) ^.Cual es el tiempo medio para el reflejo? 

b) Encuentre E(Y 2 ) y Var(Y). 

4.78 Una empresa industrial desarrollo una maquina 
con buen rendimiento de combustible para limpiar al- 
fombras, que deja las alfombras mas lirnpias con mucha 
rapidez. Interesa una variable aleatoria Y, la cantidad 
en galones por minuto que ofrece. Se sabe que la fun- 
cion de densidad esta dada por 

1 , 7 < 2 / < 8 , 

0, en cualquier otro caso. 


4.80 Considere de nuevo la situation del ejercicio 
4.78. Se requiere encontrar Var(e 1 ). Utilice los teore- 
mas 4.2 y 4.3, y defina Z = e Y . De manera que, con las 
condiciones del ejercicio 4.79, encuentre 

Var(Z) = E(Z 2 ) - [E(Z)} 2 . 

Luego hagalo sin utilizar f(y), sino mas bien emplean- 
do la aproximacion de las series de Taylor de primer 
orden para Var(e Y ). jDe sus comentarios! 


Ejercicios de repaso 


4.81 Demuestre el teoiema de Chebyshev cuando X ^ Encuentre la varianza y la desviacion estandar de X. 
es una variable aleatoria discreta. c j Encuentre E( X + 5) 2 


4.82 Encuentre la covarianza de las variables aleato- 
rias X y Yque tienen la funcion de densidad de proba- 
bilidad conjunta. 

tt x ) = { xJry ' 0 < x < 1, 0 < y < 1, 

’ \0, en cualquier otro caso. 

4.83 Refierase a las variables aleatorias cuya funcion 
densidad de probabilidad conjunta esta dada en el ejer- 
cicio 3.47 de la pagina 102, y encuentre la cantidad 
promedio de queroseno que queda en el tanque al final 
del dfa. 


4.84 Suponga que la duration X en minutos de un 
tipo especffico de conversation telefonica es una varia- 
ble aleatoria con funcion de densidad de probabilidad 



x > 0, 

en cualquier otro caso. 


a) Determine la duration media E( X) de este tipo de 
conversation telefonica. 


4.85 Refierase a las variables aleatorias cuya funcion 
de densidad conjunta esta dada en el ejercicio 3.41 de 
la pagina 101, y encuentre la covarianza entre el peso 
de las cremas y el peso de los chiclosos en estas cajas de 
chocolates. 


4.86 Refierase a las variables aleatorias cuya funcion 
de densidad de probabilidad conjunta esta dada en el 
ejercicio 3.41 de la pagina 101, y encuentre el peso 
esperado para la suma de las cremas y los chiclosos, si 
uno compra una caja de tales chocolates. 


4.87 Suponga que se sabe que la vida X en horas de 
un compresor particular tiene la funcion de densidad 


f(x) = 


J 90 ( 

\o, 


-z/ 900 , x > 0] 

en cualquier otro caso. 


a) Encuentre la vida media del compresor. 

b) Encuentre E(X 2 ). 

c) Encuentre la varianza y la desviacion estandar de la 
variable aleatoria X. 
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4.88 Refierase a las variables aleatorias cuya funcion 
de densidad conjunta esta dada en el ejercicio 3.40 de 
la pagina 101, 

a) encuentre p x y p Y , 

b) encuentre E[(X + Y)/ 2]. 

4.89 Muestre ciue Cov(aX, bY ) = ab Cov(X, Y). 

4.90 Considere la funcion de densidad del ejercicio de 
repaso 4.87. Demuestre que el teorema de Chebyshev 
es valido para k = 2 y k = 3. 


4.91 Considere la funcion de densidad conjunta 



x > 2, 0 < y < 1, 
en cualquier otro caso. 


Calcule el coeficiente de correlation p XY . 


4.92 Considere las variables aleatorias X y Y del ejer- 
cicio 4.65 de la pagina 135. Calcule p XY - 


4.93 La ganancia de un distributor en unidades de 
$5000 en un automovil nuevo es una variable aleatoria 
X que tiene la funcion de densidad 

r 2(i-*), o < x < i, 

\0, en cualquier otro caso. 

a) Encuentre la varianza de la ganancia del distributor. 

b) Demuestre que la desigualdad de Chebyshev es vali- 
da para k = 2 con la funcion de densidad anterior. 

c) ^.Cual es la probabilidad de que la ganancia exceda 
$500? 


4.94 Considere el ejercicio 4.10 de la pagina 113. ^Se 
puede decir que las calificaciones dadas por los dos ex- 
perts son independientes? Explique por que. 

4.95 Los departamentos de marketing y de contabili- 
dad de una companfa determinaron que si la companfa 
comercializa su producto recientemente desarrollado, 
la contribution de este a las utilidades de la empresa 
durante los proximos 6 meses se describe de la siguien- 
te manera: 


tasa de exito de 85%. Considere la variable aleatoria 
X como el numero de componentes de cada tres que 
fallan. 

a) Escriba una funcion de probabilidad para la variable 
aleatoria A'. 

b) ^Cual es E(X) (es decir, el numero medio de compo- 
nentes de cada tres que fallan? 

c) ^.Cual es Var(X)? 

d) ^.Cual es la probabilidad de que el sistema completo 
sea exitoso? 

e) ^Cual es la probabilidad de que falle el sistema? 

/) Si se desea que el sistema tenga una probabilidad de 
exito de 0.99, son suficientes los tres componentes? 
Si no, /.cuantos se requerin'an? 

4.97 En los negocios es importante planear y llevar 
a cabo investigation para anticipar lo que ocurrira al 
final del ano. La investigation sugiere que el espectro 
de utilidades (perdidas), con sus respectivas probabili- 
dades, es el siguiente: 

Utilidades Probabilidad 


-$15,000 

0.05 

$0 

0.15 

$15,000 

0.15 

$25,000 

0.30 

$40,000 

0.15 

$50,000 

0.10 

$100,000 

0.05 

$150,000 

0.03 

$200,000 

0.02 


a) ^.Cual es la utilidad esperada? 

b) Determine la desviacion estandar de las utilidades. 

4.98 Mediate un conjunto de datos y por la amplia 
investigation se sabe que la cantidad de tiempo, en 
segundos, que cierto empleado de una companfa llega 
tarde a trabajar es una variable aleatoria X con fun- 
cion de densidad 

/(x)= / 4 ^( 5 ° 2 - a;2 ). —50 < x < 50, 

I 0, en cualquier otro caso. 


Contribuci?n a la utilidad Probabilidad 

$5, 000 (perdida) 0.2 

$10,000 0.5 

$30, 000 0.3 

^Cual es la utilidad esperada de la companfa? 

4.96 Un sistema importante funciona como apoyo 
de un vehfculo en el programa espacial. Un solo com- 
ponente crucial funciona unicamente 85% del tiempo. 
Para reforzar la confiabilidad del sistema, se decidio 
que se instalaran 3 componentes paralelos, de mane- 
ra que el sistema falle solo si todos fallan. Suponga que los 
componentes actuan de forma independiente y que son 
equivalentes en el sentido de que los tres tienen una 


En otras palabras, el no solo llega ligeramente retra- 
sado a veces, sino que tambien puede llegar a trabajar 
antes de la hora prevista. 

a) Encuentre el valor esperado del tiempo en segundos 
quo llega tarde. 

b) Encuentre E(X 2 ). 

c) ^.Cual es la desviacion estandar del tiempo en que 
llega tarde? 

4.99 Un camion de carga viaja desde el punto A has- 
ta el punto B, y regresa por la misma ruta diariamente. 
Hay cuatro semaforos en la ruta. Sea Xi el numero de 
semaforos en rojo que el camion encuentra cuando va 
de A a B, y X -2 el numero que encuentra en el viaje de 
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regreso. Los datos recabados durante un periodo largo 
sugieren que la distribucion de probabilidad conjunta 
para (Xi, X 2 ) esta dada por 


x 2 


Xi 

0 

1 

2 

3 

4 

0 

.01 

.01 

.03 

.07 

.01 

1 

.03 

.05 

.08 

.03 

.02 

2 

.03 

.11 

.15 

.01 

.01 

3 

.02 

.07 

.10 

.03 

.01 

4 

.01 

.06 

.03 

.01 

.01 


a) Determine la densidad marginal de X\. 

b) Determine la densidad marginal de A' 2 . 

c) Determine la distribucion de densidad conditional 
de X\ dado que X 2 = 3. 

d) Determine E(X 1 ). 

e) Determine E(X- 2 ). 

f) Determine E(X i\X 2 = 3). 

g) Determine la desviacion estandar de X\. 

4.100 Una tienda de abarrotes tiene dos sitios dife- 
rentes en sus instalaciones donde los clientes pueden 
pagar cuando se marchan. Estos dos lugares tienen dos 
cajas registradoras y dos empleados que atienden a los 
clientes cuando estos pagan. Sea A' el numero de la caja 
registradora que se utiliza en un momento especffico en 
el sitio 1, y Yen numero de la caja registradora que se 
utiliza en el mismo momento en el sitio 2. La funcion 
de probabilidad conjunta esta dada por 


y 

X 0 1 2 


0 

0.12 

0.04 

0.04 

1 

0.08 

0.19 

0.05 

2 

0.06 

0.12 

0.30 


a) Determine la densidad marginal de X y de Y, asi 
como la distribucion de probabilidad de X dado que 
Y = 2. 

b) Determine E(X) y Var(X). 

c) Determine E{X\Y= 2) y Var(X \ Y = 2). 

4.101 Considere un transbordador que puede llevar 
tanto autobuses como automoviles en un recorrido a 
traves de una via fluvial. Cada viaje cuesta al propie- 
tario aproximadamente $10. La cuota por automovil 
es de $3, y por autobus de $ 8 . Sean A y Yel numero 


de autobuses y automoviles, respectivamente, que se 
transportan en un viaje especffico. La distribucion con- 
junta de X y Yesta dada por 

x 


y 012 


0 

0.01 

0.01 

0.03 

1 

0.03 

0.08 

0.07 

2 

0.03 

0.06 

0.06 

3 

0.07 

0.07 

0.13 

4 

0.12 

0.04 

0.03 

5 

0.08 

0.06 

0.02 


Calcule la utilidad esperada para el viaje del transbor- 
dador. 

4.102 Como veremos en el capitulo 12 , los metodos 
estadisticos asociados con los modelos lineal y no lineal 
son muy importantes. De hecho, a menudo las funcio- 
nes exponentiates se utilizan en una amplia gania de 
problemas cientfficos y de ingeniena. Considere un mo- 
delo que se ajusta a un conjunto de datos que implica 
los valores medidos li y I 2 , y una respuesta especffica 
Ya las mediciones. El modelo postulado es 

y _ e b 0 +bikx+b2k2 

donde Y denota el valor estimado de Y, k\ y k 2 son 
valores fijos y bo, 61 y b 2 son estimados de constantes 
y, por lo tanto, son variable aleatorias. Suponga que 
tales variables aleatorias son independientes y use la 
formula aproximada para la varianza de una funcion 
no lineal de mas de una variable. De una expresion 
para Yar(Y). Suponga que se conocen las medias de 
bo, bi y b 2 y son /3 0 , Pi y P 2 , y tambien suponga que se 
conocen las varianzas de bo, bi y b 2 y que son ctq, erf, 
y 02 - 

4.103 Considere el ejercicio de repaso 3.75 de la pagi- 
na 105, el cual implica Y, la proportion de impurezas en 
un lote, donde la funcion de densidad esta dada por 

f(y) = ( 10 (i-y) 9 , Q<y<i, 

\ 0 , en cualquier otro caso. 

a) Encuentre el porcentaje esperado de impurezas. 

b) Encuentre el valor esperado de la proportion de la 
calidad del material (es decir, encuentre E( 1 — V')). 

c) Encuentre la varianza de la variable aleatoria Z = 1 
- Y 


4.5 Nociones erroneas y riesgos potenciales; 
relacion con el material de otros capftulos 

El material que se cubrio en este capitulo es ampliamente fundamental por natura- 
leza, muy parecido respecto al del capitulo anterior. Mientras que en el capitulo 3 
hicimos una description de las caracterfsticas generates de una distribucion de pro- 
babilidad, en el presente capitulo definimos cantidades importantes o parametros 
que caracterizan la naturaleza general del sistema. La media de una distribucion re- 
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fleja una tendencia central , en tanto que la varianza o la desviacion estandar 
reflejan variabilidad en el sistema. Ademas, una covarianza refleja la tendencia de 
dos variables aleatorias a “moverse juntas” en un sistema. Estos importantes para- 
metros seran fundamentales en el estudio de los siguientes capitulos. 

El lector deberia comprender que el tipo de distribution a menudo esta deter- 
minado por el contexto cientffico. Sin embargo, los valores del parametro necesitan 
estimarse a partir de datos cientfficos. Por ejemplo, en el caso del ejercicio de repaso 
4.87 el fabricante del compresor podria saber (material que se presentara en el ca- 
pftulo 6), por su experiencia al conocer el tipo de compresor, que la naturaleza de 
la distribution es como se indica en el ejercicio. No obstante, la media [i = 900 se 
estimarfa a partir de la experimentation con la maquina. Aunque aqui se da por 
conocido el valor del parametro de 900, ello no ocurrira asi en situaciones de la vida 
real sin el uso de datos experimentales. El capitulo 9 se dedica a la estimation. 




Capftulo 5 

Algunas distribuciones 
de probabilidad discreta 


5.1 Introduccion y motivacion 

Sin importar si la distribution de probabilidad discreta se representa de forma grafi- 
ca mediante un histograma, en forma tabular o con una formula, describe el compor- 
tamiento de una variable aleatoria. A menudo, las observaciones que se generan en 
diferentes experimentos estadisticos tienen el mismo tipo general de comportamien- 
to. En consecuencia, las variables aleatorias discretas asociadas con estos experimen- 
tos se pueden describir esencialmente con la misma distribution de probabilidad y, 
por lo tanto, se representan usando una sola formula. De hecho, se necesita solo un 
punado de distribuciones de probabilidad importantes para describir muchas de las 
variables aleatorias discretas que se encuentran en la practica. 

Tal punado de distribuciones en realidad describe varios fenomenos aleatorios de 
la vida real. Por ejemplo, en un estudio sobre la prueba de la eficacia de un nuevo 
farmaco, el numero de pacientes curados entre todos los pacientes que utilizaron 
tal medicamento sigue aproximadamente una distribution binomial (section 5.3). 
En un ejemplo industrial, cuando se probo una muestra de articulos seleccionados 
de un lote de production, el numero de articulos defectuosos en la muestra, por lo 
general, puede modelarse como una variable aleatoria hipergeometrica (seccion 5.4). 
En un problema de control estadistico de la calidad, el experimentador seiialara un 
corrimiento en la media del proceso cuando los datos observacionales excedan ciertos 
limites. El numero de muestras requeridas para generar una falsa alarma sigue una 
distribucion geometrica, que es un caso especial de distribucion binomial negativa 
(seccion 5.5). Por otro lado, el numero de leucocitos de una cantidad fija de una 
muestra de la sangre de un individuo es comunmente aleatorio y podria describirse 
mediante una distribucion de Poisson (seccion 5.6). En este capftulo, vamos a pre- 
sentar esas distribuciones que a menudo se utilizan con varios ejemplos. 


5.2 Distribucion uniforme discreta 

La mas simple de todas las distribuciones de probabilidad discreta es aquella donde 
la variable aleatoria toma cada uno de sus valores con una probabilidad identica. 
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Tal distribution de probabilidad se denomina distribution uniforme discreta. 


Distribution Si la variable aleatoria X toma los valores Xi, X 2 , ■ ■ ■ , Xfc, con identicas probabili- 
uniforme dades, entonces, la distribution uniforme discreta esta dada por 
discreta 

f(x;k) = ^, x = xi‘x 2 , ■ ■ . ,x k . 

Utilizamos la notation /(x; k) en vez de /(x) para indicar que la distribucion unifor- 
me depende del parametro k. 


Ejemplo 5.1:1 Cuando se selecciona al azar una bombilla de luz de una caja que contiene una 
bombilla de 40 watts, una de 60, una de 75 y una de 100, cada elemento del espacio 
muestral S = {40, 60, 75, 100} ocurre con probabilidad de 1/4. Por lo tanto, tene- 
mos una distribucion uniforme, con 

f{x; 4) = x = 40, 60, 75, 100. 


Ejemplo 5.2:1 

Cuando se lanza un dado legal, cada elemento del espacio muestral S = {1, 2, 3, 4, 5, 6} 
ocurre con probabilidad de 1/6. Por lo tanto, tenemos una distribucion uniforme, 
con 

/(*; 6) = i x = 1,2, 3, 4, 5, 6. 

6 

La representation grafica de la distribucion uniforme mediante un histograma 
siempre resulta ser un conjunto de rectangulos con alturas iguales. El histogra- 
ma para el ejemplo 5.2 se muestra en la figura 5.1. 

Teorema 5.1: 

La media y la varianza de la distribucion uniforme discreta /(x; k ) son 


^ = y a ' 2 = lJ2( Xi ~ 


i= 1 i= 1 


Hr, 6 ) 


3 4 5 6 


Figura 5.1: Histograma para el lanzamiento de un dado. 
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Prueba: Por definition, 


k k k 

i 1 = E{X) = Y Xif(xi ; k) = Y -j: = -j: x i 

i= 1 i= 1 i = 1 


CT 2 = £[(X - aO 2 ] = Y( Xi - ^) 2 /(^; fc) = T “ ^) 2 - 


2=1 


2 = 1 


Ejemplo 5.3:1 Con referencia al ejemplo 5.2, encontramos que 

l+2+3+4+5+i 
M = 


6 


= 3.5, 


a 2 = ^[(1 - 3.5) 2 + (2 - 3.5) 2 + • • • + (6 - 3.5) 2 ] == ^ ^ = 2.92. 


5.3 Distribuciones binomial y multinomial 

Un experimento a menudo consiste en pruebas repetidas, cada una con dos resulta- 
dos posibles, los cuales se pueden marcar como exito o fracaso. La aplicacion mas 
evidente tiene que ver con la prueba cle articulos a medida que salen de una linea 
de ensamble, donde cada prueba o experimento puede indicar si un articulo esta de- 
fectuoso o no. Podemos elegir definir cualquiera de los resultados como exito. El pro- 
ceso se denomina proceso de Bernoulli. Cada ensayo se llama experimento de 
Bernoulli. En el ejemplo de extraction de cartas observe que las probabilidades 
de exito para los ensayos o pruebas que se repiten cambian si las cartas no se reem- 
plazan. Es decir, la probabilidad de seleccionar una carta de corazones en la primera 
extraction es 1/4, pero en la segunda es una probabilidad conditional que tiene un 
valor de 13/51 o 12/51, lo cual clepende de si aparece una de corazones en la primera 
extraction; este, entonces, ya no se considerara como un conjunto de experimentos 
de Bernoulli. 


El proceso de Bernoulli 

Estrictamente hablando, el proceso de Bernoulli debe tener las siguientes propiedades: 

1. El experimento consiste en n ensayos que se repiten. 

2. Cada ensayo produce un resultado que se puede clasificar como exito o fracaso. 

3 . La probabilidad de un exito, que se denota con p, permanece constante de un 
ensayo a otro. 

4 . Los ensayos que se repiten son independientes. 

Considere el conjunto de experimentos de Bernoulli donde, de un proceso de 
ensamble, se seleccionan tres articulos al azar, se inspeccionan y se clasifican como 
defectuosos o no defectuosos. Un articulo defectuoso se designa como un exito. El 
numero de exitos es una variable aleatoria X que toma valores integrates de cero a 3. 
Los ocho resultados posibles y los valores correspondientes de X son 
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Distribution 

binomial 


Resultado 

X 

NNN 

0 

NDN 

i 

NND 

l 

DNN 

l 

NDD 

2 

DND 

2 

DDN 

2 

DDD 

3 


Como los articulos se seleccionan de forma independiente de un proceso que supon- 
dremos produce 25% de articulos defectuosos, 

P(NDN) = P(N)P(D)P(N) = (?) (?) (?) = 

Calculos similares dan las probabilidades para los demas resultados posibles. La 
distribution de probabilidad de X es, por lo tanto, 


X 

0 

i 

2 

3 

f{x) 

27 

64 

27 

64 

9 

64 

1 

64 


El numero X de exitos en n experimentos de Bernoulli se denomina variable alea- 
toria binomial. La distribution de probabilidad de esta variable aleatoria discreta 
se llama distribution binomial, y sus valores se denotaran como b(x\ n, p ), ya que 
dependen del numero de ensayos y de la probabilidad de exito en un ensayo dado. 
Asi, para la distribution de probabilidad de X, el numero de defectuosos es 

m = 2) = /(2) = t(2;3,?) = ^. 

Generalicemos ahora la ilustracion anterior para obtener una formula para b(x', 
n, p). Es decir, deseamos encontrar una formula que de la probabilidad de x exitos 
en n ensayos para un experimento binomial. Primero, considere la probabilidad de 
x exitos y n — x fracasos en un orclen especifico. Como los ensayos son independien- 
tes, podemos multiplicar todas las probabilidades que corresponden a los diferentes 
resultados. Cada exito ocurre con probabilidad p y cada fracaso con probabilidad 
q = 1 — p. Por lo tanto, la probabilidad para el orden especifico es p x q n ~ x . Debemos 
determinar ahora el numero total de puntos muestrales en el experimento que tie- 
nen x exitos y n — x fracasos. Este numero es igual al numero de particiones de n 
resultados en dos grupos con x en un grupo y n — x en el otro, y se escribe (") como 
se presento en la section 2.3. Como estas particiones son mutuamente excluyentes, 
sumamos las probabilidades de todas las diferentes particiones para obtener la formula 
general o, simplemente, multiplicamos p x q n ~ x por (”) . 

Un experimiento de Bernoulli puede tener como resultado un exito con probabilidad 
p y un fracaso con probabilidad q = 1 — p. Entonces, la distribucion de probabili- 
dad de la variable aleatoria binomial X, el numero de exito en n ensayos inde- 
pendientes, es 

b(x;n,p) = (^jp x q n ~ x , x = 0, 1, 2, . . . ,n. 
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Observe que cuando n = 3 y p = 1/4, la distribution de probabilidad de X, el mi- 
mero de artfculos defectuosos, se escribe como 


b 




x = 0, 1,2,3, 


en vez de la forma tabular de la pagina 144. 


Ejemplo 5.4:1 La probabilidad de que cierta clase de componente sobreviva a una prueba de 
choque es 3/4. Encuentre la probabilidad de que sobrevivan exactamente 2 de los 
siguientes 4 componentes que se prueben. 

Solucion: Suponga que las pruebas son independientes y como p = 3/4 para cada una de las 
4 pruebas, obtenemos 


b 






J 


iDe donde viene el nombre binomial ? 

La distribution binomial deriva su nombre del hecho de que los n + 1 terminos en la 
expansion binomial de ( q + p) n corresponden a los diversos valores de b{x\ n, p) para 
x = 0, 1, . . , n. Es decir, 

(, + rt” = (”)«- + (;)*-• + (")*”- + • • ■ + (")p” 

= 6(0; n,p) + 6(1; n,p) + 6(2; n,p) + ■ ■ ■ + b(n ; n,p). 

Como p + q = 1 , vemos que 

n 

^2b{x;n,p) = 1, 

x=0 


una condition que debe ser valida para cualquier distribution de probabilidad. 

Con frecuencia, nos interesamos en problemas donde se necesita encontrar 
P(X < r) o P(a < X < 6). Por fortuna, las sumas binomiales 


B(r; n,p) = ^6(a:;n,p) 

x=0 


estan disponibles y se dan en la tabla A.l del Apendice para n = 1,2,..., 20, y para 
valores seleccionados de p entre 0.1 y 0.9. Ilustramos el uso de la tabla A.l con el 
siguiente ejemplo. 


Ejemplo 5.5:1 La probabilidad de que un paciente se recupere de una rara enfermedad sangui'nea es 
0.4. Si se sabe que 15 personas contraen tal enfermedad, ^cual es la probabilidad de 
que a) sobrevivan al menos 10, 6) sobrevivan de 3 a 8, y c) sobrevivan exactamente 5? 
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Solucion: Sea X el numero de personas que sobreviven. 

9 

a) P(X > 10) = 1 - P{X < 10) = 1-^2 b(x; 15, 0.4) = 1 - 0.9662 

x=0 

= 0.0338. 

8 8 2 

b) P { 3 < X < 8) = *22 15, 0.4) = ^ 2 b(x; 15, 0.4) — 6(x; 15, 0.4) 

x—3 x—0 x—0 

= 0.9050 - 0.0271 = 0.8779. 

5 4 

c) P{X = 5) = b( 5; 15, 0.4) = ^ b(x; 15, 0.4) - ^ b(x; 15, 0.4) 

x=0 x=0 

= 0.4032 — 0.2173 = 0.1859. 


J 


Ejemplo 5.6:1 Una cadena grande de tiendas al detalle compra cierto tipo de dispositivo electronico 
de un fabricante. El fabricante indica que la tasa de defectuosos del dispositivo 
es 3%. 

a ) El inspector de la cadena elige 20 articulos al azar de un cargamento. ^Cual es 
la probabilidad de que haya al menos 1 artfculo defectuoso entre estos 20? 

b) Suponga que el detallista recibe 10 cargamentos en un mes y que el inspector 
aleatoriamente prueba 20 dispositivos por cargamento. ^Cual es la probabilidad 
de que haya 3 cargamentos que contengan al menos un dispositivo defectuoso? 

Solucion: a) Denote con X el numero de dispostitivos defectuosos entre los 20. Esta X sigue 
una distribution 6( x; 20, 0.30). Por consiguiente, 


P{X > 1) = 1 - P(X = 0) = 1 - 6(0; 20, 0.03) 

= 1 - 0.03°(1 - 0.03) 2O_o = 0.4562. 

b) En este caso, cada cargamento puede contener al menos un artfculo defectuoso 
o no. Por lo tanto, el hecho de probar el resultado de cada cargamento puede 
verse como un experimento de Bernoulli con p = 0.4562 del inciso a). Suponien- 
do la independencia de un cargamento a otro, y denotando con Y el numero de 
cargamentos que contienen al menos un artfculo defectuoso, Y sigue otra distri- 
bution binomial b(y; 10, 0.4562). Por lo tanto, la respuesta a este inciso es 

P(Y = 3) = f 1 5jo.4562 3 (l - 0.4562) 7 = 0.1602. 


Areas de aplicacion 

De los ejemplos 5.4, 5.5 y 5.6 deberfa quedar claro que la distribution binomial 
encuentra aplicaciones en muchos campos cientfficos. Un ingeniero industrial esta 
ampliamente interesado en la “proportion de articulos defectuosos” en cierto pro- 
ceso industrial. A menudo, las mediciones de control de calidad y los esquemas de 
muestreo para procesos se basan en la distribution binomial, la cual se aplica en 
cualquier situation industrial donde el resultado de un proceso es dicotomico, y los 
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resultados del proceso son independientes, y la probabilidad de exito es constante de 
una prueba a otra. La distribucion binomial tambien se utiliza de manera extensa en 
aplicaciones medicas y militares. En ambos casos, un resultado de exito o de fracaso 
es importante. Por ejemplo, “cura” o “no cura” es importante en el trabajo farma- 
ceutico; mientras que “dar en el bianco” o “fallar” a menudo es la interpret acion del 
resultado de lanzar un proyectil guiado. 

Como la distribucion de probabilidad de cualquier variable aleatoria binomial 
depende solo de los valores que toman los parametros n, p y q, pareceri'a razonable 
suponer que la media y la varianza de una variable aleatoria binomial tambien de- 
penden de los valores que toman tales parametros. En realidad, esto es cierto, y en 
el teorema 5.2 derivamos las formulas generates como funciones de n, p y q , que se 
pueden utilizar para calcular la media y la varianza de cualquier variable aleatoria 
binomial. 


Teorema 5.2: 


La media y la varianza de la distribucion binomial b (a;; n, p) son 

/i = np y tr 2 = npq. 


Prueba: Representemos el resultado de la j-esima prueba mediante la variable aleatoria de 
Bernoulli Ij , que toma los valores 0 y 1 con probabilidades q y p, respectivamente. 
Por lo tanto, en un experimento binomial el numero de exitos se escribe como la 
suma de las n variables indicadoras independientes. De aquf, 


X — I\ + J2 + • • • + In- 

La media de cualquier Ij es E(Ij) = (0)(g) + (l)(p) = p. Por lo tanto, con el corolario 
4.4, la media de la distribucion binomial es 


p = E(X) = E{I\) + E{I 2 ) H h E{I n ) = p + p-\ h p = np. 

' v 

n terminos 


La varianza de cualquier Ij es 

= E[(ij ~ p) 2 \ = E i l2 ) -p 2 = (0) 2 (g) + (i) 2 (p) - p 2 = P( 1 ~P)= PI- 

A1 extender el corolario 4.10 al caso de n variables independientes, la varianza de la 
distribucion binomial es 

4 = ^+4^ + 0/„ — pq +pq-\ h pq = npq. 

^ v* y 

n terminos 


Ejemplo 5.7:1 Encuentre la media y la varianza de la variable aleatoria binomial del ejemplo 5.5, 
y despues utilice el teorema de Chebyshev (de la pagina 132) para interpretar el 
intervalo /t ± 2cr. 

Solucion: Como el ejemplo 5.5 fue un experimento binomial con n = 15 y p = 0.4, por el teo- 
rema 5.2, tenemos 

H = (15)(0.4) = 6 y cr 2 = (15) (0.4) (0.6) = 3.6. 

Al tomar la rai'z cuadrada de 3.6, encontramos que cr = 1.897. Por lo tanto, el interva- 
lo que se requiere es 6 ± (2)(1.897), o de 2.206 a 9.794. El teorema de Chebyshev 
afirma que el numero de recuperaciones entre 15 pacientes sujetos a la enfermedad 
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mencionada tiene una probabilidad de al menos 3/4 de caer entre 2.206 y 9.794 o 
como los datos son discretos, entre 3 y 9 inclusive. 


Ejemplo 5.8:1 Se conjetura que hay impurezas en 30% del total de pozos de agua potable de cierta 
comunidad rural. Para obtener algun conocimiento del problema, se determina que 
deberia realizarse algun tipo de prueba. Es muy costoso probar todos los pozos del 
area, por lo que se eligieron 10 aleatoriamente para una prueba. 

a) Utilizando la disribucion binomial, ^cual es la probabilidad de que exactamente 
tres pozos tengan impurezas considerando que la conjetura es correcta? 

b) ^Cual es la probabilidad de que mas de tres pozos tengan impurezas? 

Solucion: a) Requerimos 


6(3; 10, 0.3) = P(X = 3) = ^ b(x; 10, 0.3) - h ( x \ 10, 0.3) 


x— 0 

= 0.6496- 0.3828 = 0.2668. 


c— 0 


6) En este caso necesitamos P{X > 3) = 1 — 0.6496 = 0.3504. 

Hay soluciones en que el calculo de probabilidades binomiales nos permitirfan 
obtener inferencias respecto de una poblacion cientffica despues de que se recaban 
los datos. Se ofrece una ilustracion con el siguiente ejemplo. 


Ejemplo 5.9: 


Solucion: 

10 5 

P{X > 6) = b ( x '’ 10 > °- 3 ) - b ( x: 10 ’ °' 3 ) = 1 _ °' 9527 = 0- 0473 - 

x=0 x=0 

Como resultado, es muy improbable (4.7% de probabilidad) que 6 o mas pozos 
hubieran resultado impuros si tan solo 30% de todos ellos son impuros. Esto pone 
seriamente en duda la conjetura y sugiere que el problema de la impureza es mucho 
mas severo. 

Como podra clarse cuenta el lector para este momento, en muchas aplicaciones 
hay mas de dos resultados posibles. Por ejemplo, en el campo de la genetica, el color 
de los conejillos de Indias procreados puede ser rojo, negro o bianco. Con frecuen- 
cia, la dicotomfa constituida por “defectuoso” y “no defectuoso” en situaciones de 
ingenierfa es en realidad un simplificacion excesiva. De hecho, a menudo hay mas 
de dos categorias que caracterizan los artfculos o las partes que salen de una ltnea de 
ensamble. 


Considere la situation del ejemplo 5.8. La afirmacion de que “30% tienen impurezas” 
es meramente una conjetura del consejo local del agua. Suponga que se eligen 10 
pozos de forma aleatoria y se encuentra que 6 contienen impurezas. iQue implica 
esto respecto de la conjetura? Utilice un enunciado de probabilidad. 

Primero debemos preguntar: “Si la conjetura es correcta, ^es probable que hubiera- 
mos encontrado 6 o mas pozos con impurezas? 


Experimentos multinomiales 

El experimento binomial se convierte en un experimento multinomial si cada 
prueba tiene mas de dos resultados posibles. Por ello, la clasificacion de un producto 
fabricado como ligero, pesado o aceptable, y el registro de los accidentes en cierto 
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crucero cle acuerdo con el clia de la semana, constituyen experimentos multinomiales. 
Extraer una carta de una baraja con reemplazo tambien es un experimento multino- 
mial si los 4 palos son los resultados de interes. 

En general, si una prueba dada puede tener como consecuencia cualquiera de los 
k resultados posibles E\, E2, ■ ■ ■ , E k con probabilidades pi, P22, ■ ■ ■ , Pk , entonces 
la distribucion multinomial dara la probabilidad de que E\ ocurra x\ veces; E 2 
ocurra X2 veces ... y E k ocurra Xk veces en n pruebas independientes, donde 

xi + X2 + ■ ■ ■ + Xk — n. 

Denotaremos esta distribucion de probabilidad conjunta como 
f(x 1, x 2 , ■ ■ ■ , x k \ pi, p 2 , ■ ■ ■ , Pk, n). 

Claramente, pi + P2 + ■■• + Pk = 1, pues el resultado de cada ensayo debe ser uno 
de los k resultados posibles. 

Forma general para probabilidades multinomiales 

Para derivar la formula general, procedemos como en el caso binomial. Como las 
pruebas son independientes, cualquier orden especificado que produzca x\ resulta- 
dos para E\, X2 para E2, . . . , Xk para Ek ocurrira con probabilidad p^p 2 2 ■ ■ -p^ ■ El 
numero total de ordenes que den resultados similares para las n pruebas es igual al nu- 
mero de particiones de n articulos en k grupos con Xi en el primer grupo; X2 en el se- 
gundo grupo. . . y ij- en el fc-esimo grupo. Esto se realiza en 

/ n \ n! 

\Xi,X2,...,X k ) X\\x 2 \ - ■ ■ Xk\ 

formas. Como todas las particiones son mutuamente excluyentes y ocurren con igual 
probabilidad, obtenemos la distribucion multinomial al multiplicar la probabilidad 
para un orden especifico por el numero total de particiones. 


Distribucion Si una prueba dada puede conducir a los k resultados E±, E2, . . . , Ek con proba- 
multinomial bilidades pi, P2, ■ ■ ■ , Pk, entonces la distribucion de probabilidad de las variables 
aleatorias X\, X2 , . . . , Xk, que representa el numero de ocurrencias para E\, 
E2, ■ . . , , Ek en n pruebas independientes, es 


f(x 1} x 2 , . . . ,x k ;p 1 ,p 2 , . . . ,Pk,n) 


con 


5 •> • • • 1 %k 


rri X2 Xk 

Pi P2 m - m Pk> 


k 

x i = n > y 

i=l 


k 


YPi = L 


La distribucion multinomial deriva su nombre del hecho de que los terminos de la 
expansion multinomial de (p\ + p 2 + • • • + pk) n corresponden a todos los posibles 
valores de 


f(x h X 2 ,..., X k ; p 1, p 2 , . . . ,p/c, n). 


Ejemplo 5.10:1 La complejidad de las llegadas y las salidas en un aeropuerto es tal que a menudo se 
utiliza la simulacion computarizada para modelar las condiciones “ideales”. Para un 
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aeropuerto especffico que contiene tres pistas se sabe que, en el escenario ideal, las 
siguientes son las probabilidades de que las pistas individuales sean utilizadas por 
un avion comercial que llega aleatoriamente: 

Pista 1: p\ = 2/9, 

Pista 2: p 2 = 1/16, 

Pista 3: p$ = 11/18. 

^Cual es la probabilidad de que 6 aviones que llegan al azar se distribuyan de la 
siguiente manera? 

Pista 1: 2 aviones, 

Pista 2: 1 avion, 

Pista 3: 3 aviones. 

Solucion: Usando la distribucion multinomial, tenemos 


/ 


9 1 o 2 1 u , 
2 ’ 1,3, 9’ 6’ 18 ’ 6 



6! 2 2 1 ll 3 

2! 1! 3! ’ P ' 6 ’ 18 3 



0.1127. 
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Ej ercicios 

5.1 Se elige a un empleado de un equipo de 10 para 
supervisar cierto proyecto, mediante la selection de una 
etiqueta al azar de una caja que contiene 10 etiquetas 
numeradas del 1 al 10. Encuentre la formula para la 
distribucion de probabilidad de A' que represente el nu- 
mero en la etiqueta que se saca. ^Cual es la probabili- 
dad de que el numero que se extrae sea menor que 4? 

5.2 Se dan dos altavoces identicos a doce personas 
para que escuchen diferencias, si las hubiera. Suponga 
que estas personas responden solo adivinando. Encuen- 
tre la probabilidad de que tres personas afirmen haber 
escuchado alguna diferencia entre los dos altavoces. 

5.3 Encuentre la media y la varianza de la variable 
aleatoria A' del ejercicio 5.1. 

5.4 En cierto distrito de la ciudad la necesidad de 
dinero para comprar drogas se establece como la razon 
del 75% de todos los robos. Encuentre la probabilidad 
de que entre los siguientes cinco casos de robo que se 
reporten en este distrito, 

a) exactamente 2 resulten de la necesidad de dinero 
para comprar drogas; 

b) al menos 3 resulten de la necesidad de dinero para 
comprar drogas. 

5.5 De acuerdo con Chemical Engineering Progress 
(noviembre de 1990), aproximadamente 30% de todas 
las fallas de operacion en las tuberfas de plantas qufmi- 
cas son ocasionadas por errores del operador. 

a) ^Cual es la probabilidad de que de las siguientes 20 
fallas en las tuberfas al menos 10 se deban a un error 
del operador? 


b) ^Cual es la probabilidad de que no mas de 4 de 20 
fallas se deban al error del operador? 

c) Suponga, para una planta especffica, que de la 
muestra aleatoria de 20 de tales fallas, exactamente 
5 sean errores de operacion. ^Considera que la cifra 
de 30% anterior se aplique a esta planta? Comente. 

5.6 De acuerdo con una investigation de la Adminis- 
trative Management Society, la mitad de las compa- 
nfas estadounidenses dan a sus empleados 4 semanas 
de vacaciones despues de 15 anos de servicio en la com- 
panfa. Encuentre la probabilidad de que entre 6 compa- 
nfas encuestadas al azar, el numero que da a sus em- 
pleados 4 semanas de vacaciones despues de 15 anos 
de servicio es 

a) cualquiera entre 2 y 5; 

b) menor que 3. 

5.7 Un prominente medico afirma que 70% de las per- 
sonas con cancer pulmonar son fumadores empederni- 
dos. Si su aseveracion es correcta, 

a) encuentre la probabilidad de que de 10 de tales pa- 
cientes con ingreso reciente en un hospital, menos de 
la mitad sean fumadores empedernidos; 

b) encuentre la probabilidad de que de 20 de tales 
pacientes que recientemente hayan ingresado a un 
hospital, menos de la mitad sean fumadores empe- 
dernidos. 

5.8 De acuerdo con un estudio publicado por un gru- 
po de sociologos de la Universidad de Massachusetts, 
aproximadamente 60% de los consumidores de Valium 
en el estado de Massachusetts tomaron Valium por pri- 
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mera vez a causa de problemas psicologicos. Encuentre 
la probabilidad de que entre los siguientes 8 consumi- 
dores entrevistados de este estado, 

a) exactamente 3 comenzaran a tomar Valium por pro- 
blemas psicologicos; 

b) al menos 5 comenzaran a consumir Valium por pro- 
blemas que no fueron psicologicos. 

5.9 Al probar cierta clase de neumatico para camion 
en un terreno accidentado, se encuentra que 25% de 
los camiones no completaban la prueba de recorrido sin 
ponchaduras. De los siguientes 15 camiones probados, 
encuentre la probabilidad de que 

a) de 3 a 6 tengan ponchaduras; 

b) menos de 4 tengan ponchaduras; 

c) mas de 5 tengan ponchaduras. 

5.10 Segun un reportaje publicado en la revista Pa- 
rade, una encuesta a nivel national de la Universidad 
de Michigan a estudiantes universitarios de ultimo ano 
revela que casi 70% desaprueban el consumo de mari- 
guana. Si se seleccionan 12 estudiantes al azar y se les 
pide su opinion, encuentre la probabilidad de que el 
mimero de los que desaprueban fumar mariguana sea 

a) cualquier valor entre 7 y 9; 

b) a lo mas 5; 

c) no menos de 8. 

5.11 La probabilidad de que un paciente se recupe- 
re luego de una delicada operation de corazon es 0.9. 
/.Cual es la probabilidad de que exactamente 5 de los 
siguientes 7 pacientes intervenidos sobrevivan? 

5.12 Un ingeniero de control de trafico reporta que 
75% de los vehiculos que pasan por un punto de verifi- 
cation son de residentes del estado. /.Cual es la proba- 
bilidad de que menos de 4 de los siguientes 9 vehiculos 
sean de otro estado? 

5.13 Un estudio examino las actitudes nacionales 
acerca de los antidepresivos. El estudio revelo que 
aproximadamente 70% cree que “los antidepresivos 
en realidad no curan nada, solo disfrazan el problema 
real” . De acuerdo con este estudio, /.cual es la proba- 
bilidad de que al menos 3 de las siguientes 5 personas 
seleccionadas al azar tengan esta opinion? 

5.14 Se sabe que el porcentaje de victorias para que 
el equipo de baloncesto Toros de Chicago pasara a las 
finales en la temporada 1996-1997 fue 87.7. Redondee 
87.7 a 90 con la finalidad de utilizar la tabla A. 1. 

a) /.Cual es la probabilidad de que los Toros ganen los 
primeros 4 de los 7 de la serie final? 

b) /.Cual es la probabilidad de que los Toros ganen 
toda la serie final? 

c) /.Que suposicion importante se realiza para contes- 
tar los incisos a) y 6)? 


5.15 Se sabe que 60% de los ratones inoculados con 
un suero quedan protegidos contra cierta enfermedad. 
Si se inoculan 5 ratones, encuentre la probabilidad de 
que 

a) ninguno contraiga la enfermedad; 

b) menos de 2 contraigan la enfermedad; 

c) mas de 3 contraigan la enfermedad. 

5.16 Suponga que los motores de un avion operan de 
forma independiente y fallan con probabilidad igual a 
0.4. Suponiendo que un avion tiene un vuelo seguro si 
funcionan al menos la mitad de sus motores, determine 
si un avion de 4 motores o uno de 2 tiene la probabili- 
dad mas alta de un vuelo exitoso. 

5.17 Si A' representa el mimero de personas del ejer- 
cicio 5.13 que creen que los antidepresivos no curan 
sino que solo disfrazan el problema real, encuentre la 
media y la varianza de X cuando se seleccionan al azar 
5 personas y despues utilice el teorema de Chebyshev 
para interpretar el intervalo /r ± 2 cr. 

5.18 a) /.En el ejercicio 5.9 cuantos de los 15 camio- 
nes esperarfa que tuviera ponchaduras? 

b) De acuerdo con el teorema de Chebyshev, /.hay una 
probabilidad de al menos 3/4 de que el mimero de 
camiones entre los siguientes 15 que tengan poncha- 
duras caiga en un intervalo? /.En cual? 

5.19 Un estudiante que maneja hacia su escuela en- 
cuentra un semaforo. Este semaforo permanece verde 
por 35 segundos, ambar cinco segundos, y rojo 60 se- 
gundos. Suponga que el estudiante va a la escuela toda 
la semana entre 8:00 y 8:30. Sea X\ el mimero de ve- 
ces que encuentra una luz verde, X 2 el mimero de veces 
que encuentra una luz ambar y A '3 el mimero de ve- 
ces que encuentra una luz roja. Encuentre la distribu- 
tion conjunta de Xi, X 2 y A% 

5.20 Segun el periodico USA Today (18 de marzo de 
1997) de 4 millones de trabajadores en la fuerza late- 
ral, 5.8% resulto positivo en una prueba de drogas. De 
quienes resultaron positivos, 22.5% fueron usuarios de 
cocafna y 54.4% de mariguana. 

a) /.Cual es la probabilidad de que de 10 trabajadores 
que resultaron positivos, 2 sean usuarios de cocafna, 
5 de mariguana y 3 de otras drogas? 

b) /.Cual es la probabilidad de que de 10 trabajadores 
que resultaron positivos, todos sean usuarios de ma- 
riguana? 

c) /.Cual es la probabilidad de que de 10 trabajadores 
que resultaron positivos, ninguno sea usuario de co- 
cafna? 

5.21 La superficie de un tablero circular para dardos 
tiene un pequeiio cfrculo central llamado ojo de toro y 
20 regiones en forma de rebanada de pastel numeradas 
del 1 al 20. Asimismo, cada una de estas regiones esta 
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dividida en tres partes, de manera que una persona 
que lanza un dardo que cae en un numero especffico 
obtiene una puntuacion igual al valor del numero, el 
doble del numero o el triple de este, segun en cual de 
las tres partes caiga el dardo. Si una persona atina al 
ojo de toro con probabilidad de 0.01, atina un doble 
con probabilidad de 0.10, un triple con probabilidad de 
0.05 y no le atina al tablero con probabilidad de 0.02, 
ferial es la probabilidad de que 7 lanzamientos tengan 
como resultado ningun ojo de toro, ningun triple, un 
doble dos veces y dar fuera del tablero? 

5.22 De acuerdo con la teorfa genetica, cierta cruza 
de conejillos de Indias tendra erfas rojas, negras y blan- 
cas con la relation 8:4:4. Encuentre la probabilidad de 
que entre 8 cri'as 5 sean rojas, 2 negras y 1 blanca. 

5.23 Las probabilidades de que un delegado a cierta 
convention llegue por avion, autobus, automovil o tren 
son, respectivamente, 0.4, 0.2, 0.3 y 0.1. ^.Cual es la 
probabilidad de que entre 9 delegados a esta conven- 
tion seleccionados al azar, 3 lleguen por avion, 3 por 
autobus, 1 en automovil y 2 en tren? 

5.24 Un ingeniero de seguridad afirma que solo 40% 
de todos los trabajadores utilizan cascos de seguridad 
cuando comen en el lugar de trabajo. Suponga que esta 
afirmacion es cierta, y encuentre la probabilidad de que 
4 de 6 trabajadores elegidos al azar utilicen sus cascos 
mientras comen en el lugar de trabajo. 

5.25 Suponga que para un embarque muy grande de 
chips de circuitos integrados, la probabilidad de falla 
para cualquier chip es 0.10. Suponga que se cumplen 
las suposiciones en que se basan las distribuciones bi- 


nomiales y encuentre la probabilidad de que a lo mas 3 
chips fallen en una muestra aleatoria de 20. 

5.26 Suponga que 6 de 10 accidentes automovilfsticos 
se deben principalmente a que no se respeta el h'mite de 
velocidad, y encuentre la probabilidad de que entre 8 
accidentes automovilfsticos 6 se deban principalmente 
a no respetar el lfmite de velocidad 

a) mediante el uso de la formula para la distribution 
binomial; 

b ) usando la tabla binomial. 

5.27 Si la probabilidad de que una luz fluorescen- 
te tenga una vida util de al menos 800 horas es 0.9, 
encuentre las probabilidades de que entre 20 de tales 
luces 

o) exactamente 18 tengan una vida util de al menos 
800 horas; 

b) al menos 15 tengan una vida util de al menos 800 
horas; 

c) al menos 2 no tengan una vida util de al menos 800 
horas. 

5.28 Un fabricante sabe que, en promedio, 20% de 
los tostadores electricos que fabrica requeriran repara- 
ciones dentro de 1 ario despues de su venta. Cuando se 
seleccionan al azar 20 tostadores, encuentre los nume- 
ros x y y adecuados tales que 

a) la probabilidad de que al menos x de cllos requieran 
reparaciones sea menor que 0.5; 

b) la probabilidad de que al menos y de ellos no requie- 
ran reparaciones sea mayor que 0.8. 


5.4 Distribution hipergeometrica 

La manera mas simple de ver la diferencia entre la distribution binomial de la section 
5.3 y la distribution hipergeometrica esta en la forma en que se realiza el muestreo. 
Los tipos de aplicaciones de la distribution hipergeometrica son muy similares a los 
de la distribution binomial. Nos interesamos en el calculo de probabilidades para el 
numero de observaciones que caen en una categorfa especffica. Sin embargo, en el caso 
de la binomial, se requiere la independencia entre las pruebas. Como resultado, si 
se aplica la binomial, digamos, al tomar muestras de un lote de artfculos (barajas, 
lotes de artfculos producidos) , el muestreo se debe efectuar con reemplazo de cada 
artfculo despues de que se observe. Por otro lado, la distribution hipergeometrica no 
requiere independencia y se basa en el muestreo que se realiza sin reemplazo. 

Las aplicaciones de la distribution hipergeometrica se encuentran en muchas 
areas, con gran uso en muestreo de aceptacion, pruebas electronicas y garantfa 
de calidad. Evidentemente, para muchos de estos campos el muestreo se realiza a 
expensas del artfculo que se prueba. Es decir, el artfculo se clestruye y por ello no 
se puede reemplazar en la muestra. Asf, es necesario un muestreo sin reemplazo. 
Utilizamos un ejemplo simple con barajas para ilustracion. 

Si deseamos encontrar la probabilidad de observar 3 cartas rojas en 5 extraccio- 
nes de una baraja ordinaria de 52 cartas, la distribution binomial de la section 5.3 
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no se aplica a menos que cada carta se reemplace y que el paquete se revuelva an- 
tes de que se extraiga la siguiente carta. Para resolver el problema de muestreo sin 
reemplazo, volvamos a plantearnos el problema. Si se sacan 5 cartas al azar, nos 
interesamos en la probabilidad de seleccionar 3 cartas rojas de las 26 disponibles 
y 2 negras de las 26 cartas negras de que dispone la baraja. Hay ( 2 3 6 ) formas de 
seleccionar 3 cartas rojas, y para cada una de estas formas podemos elegir 2 cartas 
negras de ( 2 2 6 ) maneras. Por lo tanto, el numero total de formas de seleccionar 3 
cartas rojas y 2 negras en cinco extracciones es el producto ( 2 3 6 )( 2 2 6 )- El numero total 
de formas de seleccionar cualesquiera 5 cartas de las 52 disponibles es ( 5 5 2 ). Por ello, 
la probabilidad de seleccionar 5 cartas sin reemplazo de las cuales 3 sean rojas y 
2 negras esta dada por 



(261/3! 23!)(26!/2! 24!) 
52!/5! 47! 


0.3251. 


En general, nos interesa la probabilidad de seleccionar x exitos de los k artfculos 
considerados como exito y n — x fracasos de los N — k artfculos que se consideran 
fracasos cuando una muestra aleatoria de tamano n se selecciona de N artfculos. 
Esto se conoce como un experimento hipergeometrico; es decir, aquel que posee 
las siguientes dos propiedades: 

1. Se selecciona una muestra aleatoria de tamano n sin reemplazo de N ar- 
tfculos. 

2. k de los N artfculos se pueden clasificar como exitos y N — k se clasifican como 
fracasos. 

El numero X de exitos de un experimento hipergeometrico se denomina variable 
aleatoria hipergeometriea. En consecuencia, la distribucion de probabilidad de 
la variable hipergeometrica se llama distribucion hipergeometrica, y sus valores 
se denotan como h{x\ N, n, k), debido a que dependen del numero de exitos k en el 
conjunto N del que seleccionamos n artfculos. 


Distribucion hipergeometrica en el muestro de aceptacion 

Como en el caso de la distribucion binomial, la distribucion hipergeometrica encuen- 
tra aplicaciones en el muestreo de aceptacion, donde lotes del material o las partes 
se muestrean con la finalidad de determinar si se acepta o no el lote complete. 


Ejemplo 5.11:1 Una pieza especffica que se utiliza como dispositivo de injeccion se vende en lotes 
de 10. El productor considera que el lote es aceptable si no tiene mas de un artfculo 
defectuoso. Algunos lotes se muestrean y el plan de muestreo implica muestreo alea- 
torio y probar 3 partes de cada 10. Si ninguna de las 3 esta defectuosa, se acepta el 
lote. Comente acerca de la utilidad de este plan. 

Solucion: Supongamos que el lote es verdaderamente inaceptable (es decir, que 2 de cada 10 
estan defectuosos). La probabilidad de que nuestro plan de muestreo encuentre el 
lote aceptable es 



0.467. 


P(X = 0) 
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De esta manera, si el lote es en verdad inaceptable con 2 partes defectuosas, este 
plan de muestreo permitira su aceptacion aproximadamente 47% de las veces. Como 
resultado, este plan deberfa considerarse defectuoso. 

Generalicemos el ejemplo 5.8 para encontrar una formula para h( x; N , n, k). El 
mimero total de muestras de tamano n que se eligen de N artfculos es (‘^). Se su- 
pone que estas muestras tienen igual probabilidad. Hay ( x ) formas de seleccionar 
x exitos de los k disponibles, y por cada una de estas formas podemos elegir n — x 
fracasos en (^_ x ) formas. De esta manera, el mimero total de muestras favorables 
entre las (^J muestras posibles esta dado por ( x )( J ^I a; ). De aquf, tenemos la si- 
guiente definicion. 


Distribucion La distribution de probabilidad de la variable aleatoria hipergeometrica X, el 
hipergeometrica mimero de exitos en una muestra aleatoria de tamano n que se selecciona de N 
artfculos, en los que k se denomina exito y N — k fracaso, es 

'N-k\ 
v n 
N 
n 

El rango de x puede determinarse mediante los tres coefcicentes binomiales en la 
definicion, donde x y n — x no son mas que k y N — k; respectivamente; y ambas 
no pueden ser menores que 0. Por lo general, cuando tanto k (el mimero de exitos) 
como N — k (el mimero de fracasos) son mayores que el tamaiio de la muestra n, el 
rango de una variable aleatoria hipergeometrica sera x = 0, 1, . . . , n. 



h(x ; N, n, k ) = 


©( 


Ejemplo 5.12:1 Lotes de 40 componentes cada uno se denominan aceptables si no contienen mas de 
tres defectuosos. El procedimiento para muestrear el lote consiste en seleccionar 5 
componentes al azar y rechazar el lote si se encuentra un componente defectuoso. 
^Cual es la probabilidad de que se encuentre exactamente 1 defectuoso en la mues- 
tra, si hay 3 defectuosos en todo el lote? 

Solucion: Si se utiliza la distribucion hipergeometrica con n = 5, N = 40, k = 3 y x = 1, en- 
contramos que la probabilidad de obtener un defectuoso es 


h( 1; 40, 5, 3) 


(Ml 

( 4 5 °) 


0.3011. 


De nueva cuenta, probablemente este plan no sea deseable porque detecta un lote 
malo (con 3 defectuosos) solo 30% de las veces. 


Teorema 5.3: La media y la varianza de la distribucion hipergeometrica h(x', N, n, k ) son 


nk 

lv’ 


y cr = 


N 

N - 1 


• n ■ — 1 — — 


N 


N 


La demostracion para la media se muestra en el apendice A. 25. 


Ejemplo 5.13:1 Volvamos a investigar el ejemplo 3.9. La finalidad de este ejemplo fue ilustrar la 
nocion de una variable aleatoria y el espacio muestral correspondiente. En el ejem- 
plo, tenemos un lote de 100 artfculos de los cuales 12 estan defectuosos. ^Cual es la 
probabilidad de que haya 3 defectuosos en una muestra de 10? 
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Solucion: Utilizando la funcion de probabilidad hipergeometrica, tenemos 

100 \ 

10 ) 


= 0.08. 


*.(3; 100, 10, 12) = 


(3 


J 


Ejemplo 5.14:1 Encuentre la media y la varianza de la variable aleatoria del ejemplo 5.12, y despues 
utilice el teorema de Chebyshev para interpretar el intervalo p ± 2cr. 

Solucion: Como el ejemplo 5.12 fue un experimento hipergeometrico con N = 40, n = 5 y k = 3, 
entonces por el teorema 5.3, tenemos 


M = 


( 5 )( 3 ) 

40 


3 

8 


0.375, 


y 


o 


2 



0.3113. 


A1 obtener la ratz cuadrada de 0.3113, encontramos que o = 0.558. De aqui', el in- 
tervalo que se requiere es 0.375 ± (2) (0.558), o de —0.741 a 1.491. El teorema de 
Chebyshev establece que el numero de componentes defectuosos que se obtienen 
cuando 5 se seleccionan al azar de un lote de 40 componentes, de los que tres son 
defectuosos, tiene una probabilidad de al menos 3/4 de caer entre —0.741 y 1.491. 
Es decir, al menos tres cuartos de las veces los 5 componentes incluiran menos de 
2 defectuosos. 


Relacion con la distribucion binomial 

En este capftulo examinamos varias distribuciones discretas importantes que tienen 
amplia aplicabilidad, muchas de las cuales se relacionan bien entre si. El estudiante 
principiante deberia tener una clara comprension de tales relaciones. Hay una rela- 
cion interesante entre las distribuciones hipergeometrica y binomial. Como se espe- 
raria, si n es pequena comparada con N, la naturaleza de los N artfculos cambia muy 
poco en cada prueba. De man era que una distribucion binomial puede utilizarse para 
aproximar la distribucion hipergeometrica cuando n es pequena en comparacion con 
N. De hecho, por regia general la aproximacion es buena cuando < 0.05. 

Asf, la cantidad /j juega el papel del parametro binomial p. Como consecuen- 
cia, la distribucion binomial se puede ver como una version de poblacion grande de 
las distribuciones hipergeometricas. La media y la varianza entonces se obtienen de las 
formulas 


nk 



Al comparar estas formulas con las del teorema 5.3, vemos que la media es la misma 
mientras que la varianza difiere por un factor de correction de (N — n)/(N — 1), que 
es insignificante cuando n es pequena en relacion con N. 


Ejemplo 5.15:1 Un fabricante de neumaticos para automovil reporta que entre un cargamento de 
5000 que se mandan a un distribuidor local, 1000 estan ligeramente manchados. Si 
se compran al azar 10 de estos neumaticos al distribuidor, ^cual es la probabilidad 
de que exactamente 3 esten manchados? 
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Solucion: 


Distribution 

hipergeometrica 

multivariada 


Ejemplo 5.16: 


Como N = 5000 es grande en relation con la muestra de tamano n = 10, aproxima- 
remos la probabilidad que se desea usando la distribution binomial. La probabilidad 
de obtener un neumatico manchado es 0.2. Por lo tanto, la probabilidad de obtener 
exactamente 3 manchados es 


h( 3; 5000, 10, 1000) « 6(3; 10, 0.2) = ^ b(x; 10, 0.2) - ^ b(x; 10, 0.2) 


tc=0 

= 0.8791 - 0.6778 = 0.2013. 


x=0 


Por otro lado, la probabilidad exacta es h( 3; 5000, 10, 1000) = 0.2015. 

La distribucion hipergeometrica se puede extender para tratar el caso donde los 
N artfculos se pueden dividir en k celdas Ai, A 2 , . . . , A k con a± elementos en la pri- 
mera celda, 02 en la segunda , . . . , a k elementos en la fc-esima celda. Nos interesamos 
ahora en la probabilidad de que una muestra aleatoria de tamano n de x\ elementos 
de Ai, X 2 elementos de A 2 , ■ ■ ■ , y Xk de tip Representemos esta probabilidad por 

f(x i,x 2 , ...,x k -,a 1 ,a 2 ,...a k ,N, n). 


Para obtener una formula general, notamos que el numero total de muestras de ta- 
mano n que se pueden elegir a partir de N artfculos es aun (^). Hay (“)) formas de 
seleccionar x\ artfculos de los que hay en Ai, y para cada uno de estos podemos 
elegir x 2 de los de A 2 en (“*) formas. Por lo tanto, podemos seleccionar x\ artfculos de 
tii, y x 2 de ti 2 en (“)) (“*) formas. Si continuamos de esta forma, podemos seleccionar 
todos los n artfculos que consisten en x\ de tip x 2 de A 2 , , y x k de A k en 




formas. 


La distribucion de probabilidad que se requiere se define ahora como sigue. 


Si N artfculos se pueden dividir en las k celdas tip ti.2 , . . . , A k con ap a 2 , ... , 
a k elementos, respectivamente, entonces la distribucion de probabilidades de las 
variables aleatorias X\, X 2 , . . . , X k , que representan el numero de elementos que 
se seleccionan de tii, ti2, . . . , A k en una muestra aleatoria de tamano n, es 


f{xi,x 2 , . . .,x k ;ai,a 2 ,.. .,a k ,N,n) 


ii'j ( a 2\ . . . (a k \ 
Cl/ \X2' \X k ) 

o : 


k k 

con Y, x i = n y Y a * = N - 

i—1 i—1 


Un grupo de 10 individuos se usa para un estudio de caso biologico. El grupo con- 
tiene 3 personas con sangre tipo O, 4 con sangre tipo A y 3 con tipo B. ^Cual es la 
probabilidad de que una muestra aleatoria de 5 contenga 1 persona con sangre tipo 
O, 2 personas con tipo A y 2 personas con tipo B? 
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Solucion: A1 usar la extension de la distribution hipergeometrica con X\ = 1, = 2, x% = 2, 

ai = 3, 02 = 4, a 3 = 3, N = 10 y n = 5, encontramos que la probabilidad que se 
desea es 


/( 1,2, 2; 3, 4, 3, 10, 5) 


(5°) 


_3_ 

14' 


J 


Ej ercicios 

5.29 Si se reparten 7 cartas de una baraja ordinaria 
de 52 cartas, ^cual es la probabilidad de que 

a) exactamente 2 de ellas sean mayores a 10? 

b) al menos 1 de ellas sea una reina? 

5.30 Para evitar la detection en la aduana, un viajero 
coloca seis comprimidos con narcoticos en una botella 
que contiene 9 pfldoras de vitamina que son similares 
en apariencia. Si el oficial de la aduana selecciona 3 de 
las tabletas al azar para su analisis, ^cual es la probabi- 
lidad de que el viajero sea arrestado por posesion ilegal 
de narcoticos? 

5.31 El dueno de una casa planta 6 bulbos seleccio- 
nados al azar de una caja que contiene 5 bulbos de tu- 
lipan y cuatro de narciso. ^Cual es la probabilidad de 
que plante 2 bulbos de narciso y 4 de tulipan? 

5.32 De un lote de 10 proyectiles, se seleccionan 4 
al azar y se lanzan. Si el lote contiene tres proyectiles 
defectuosos que no explotaran, ^cual es la probabilidad 
de que 

а) los 4 exploten? 

б) a lo mas 2 fallen? 

5.33 Se selecciona al azar un comite de 3 personas a 
partir de 4 doctores y 2 enfermeras. Escriba una formu- 
la para la distribution de probabilidad de la variable 
aleatoria X que representa el numero de doctores en el 
comite. Encuentre P( 2 < X < 3). 

5.34 ^Cual es la probabilidad de que una mesera se 
rehuse a servir bebidas alcoholicas a solo dos menores 
si ella verifica al azar las identificaciones de 5 estudian- 
tes de entre 9 estudiantes, de los cuales 4 no tienen la 
edad legal para beber? 

5.35 Una compafua esta interesada en evaluar su 
procedimiento de inspection actual en embarques de 
50 articulos identicos. El procedimiento consiste en to- 
mar una muestra de 5 y pasar el embarque si no se 
encuentran mas de 2 defectuosos. /.Que proportion de 
embarques con 20% defectuosos se aceptara? 

5.36 Una compafua fabricante utiliza un esquema de 
aceptacion de production de articulos antes de que se 
embarquen. El plan tiene dos etapas. Se preparan ca- 


jas de 25 articulos para su embarque y se prueba una 
muestra de 3 en busca de defectuosos. Si se encuentra 
alguno defectuoso, toda la caja se regresa para verificar 
el 100%. Si no se encuentran defectuosos, la caja se 
embarca. 

a) ^Cual es la probabilidad de que se embarque una 
caja que contiene 3 defectuosos? 

b) ^Cual es la probabilidad de que una caja que con- 
tenga solo 1 artfculo defectuoso se regrese para su 
revision? 

5.37 Suponga que la compafua fabricante del ejer- 
cicio 5.36 decide cambiar su esquema de aceptacion. 
Con el nuevo esquema un inspector toma un artfculo al 
azar, lo inspecciona y despues lo reemplaza en la caja; 
un segundo inspector hace lo mismo. Finalmente, un 
tercer inspector lleva a cabo el mismo procedimiento. 
La caja no se embarca si cualquiera de los tres encuen- 
tra uno defectuoso. Responda el ejercicio 5.36 con este 
nuevo plan. 

5.38 En el ejercicio 5.32, ^cuantos proyectiles defec- 
tuosos se pueden incluir entre los 4 que se seleccionan? 
Utilice el teorema de Chebyshev para describir la va- 
riabilidad del numero de proyectiles defectuosos que se 
incluyen cuando se seleccionan 4 de varios lotes, cada 
uno de tamano 10 con 3 proyectiles defectuosos. 

5.39 Si a una persona se le reparten varias veces 13 
cartas de una baraja ordinaria de 52 cartas, ^cuantas car- 
tas de corazones por mano puede esperar? ^Entre cuales 
dos valores esperarfa que cayera el numero de corazo- 
nes al menos 75% de las veces? 

5.40 Se estima que 4000 de los 10,000 residentes con 
derecho al voto de una ciudad estan en contra de un 
nuevo impuesto sobre ventas. Si se seleccionan al azar 
15 votantes y se les pide su opinion, ^,cual es la pro- 
babilidad de que a lo mas 7 esten a favor del nuevo 
impuesto? 

5.41 Una ciudad vecina considera una petition de 
anexion de 1200 residencias contra una subdivision del 
condado. Si los ocupantes de la mitad de las residencias 
objetan la anexion, ^cual es la probabilidad de que en 
una muestra aleatoria de 10 al menos 3 esten a favor 
de la petition de anexion? 
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5.42 Entre 150 empleados de IRS en una ciudad gran- 
de, solo 30 son mujeres. Si se eligen al azar 10 de los 
aspirantes para que proporcionen asistencia libre de 
impuestos a los residentes de esta ciudad, utilice la 
aproximacion binomial a la hipergeometrica para en- 
contrar la probabilidad de que al menos 3 mujeres se 
seleccionen. 

5.43 Una encuesta a nivel nacional de la Universidad 
de Michigan a 17,000 estudiantes universitarios de ul- 
timo ano revela que casi 70% desaprueba el consumo 
de mariguana. Si se seleccionan al azar 18 de tales es- 
tudiantes y se les pide su opinion, ^cual es la probabili- 
dad de que mas de 9 pero menos de 14 desaprueben el 
consumo de mariguana? 

5.44 Encuentre la probabilidad de que cuando se le 
reparta una mano de bridge de 13 cartas tenga 5 de es- 
padas, 2 de corazones, 3 de diamantes y 3 de treboles. 

5.45 Un club de estudiantes extranjeros tiene como 
miembros a 2 canadienses, 3 japoneses, 5 italianos y 
2 alemanes. Si se selecciona al azar un comite de 4, 
encuentre la probabilidad de que 

a) todas las nacionalidades esten representadas; 

b ) todas las nacionalidades esten representadas excep- 
to los italianos. 

5.46 Una urna contiene 3 bolas verdes, 2 azules y 
4 rojas. En una muestra aleatoria de 5 bolas, encuentre 
la probabilidad de que se seleccionen bolas azules y al 
menos una roja. 

5.47 Estudios de poblacion de biologia y el ambiente 
a menudo etiquetan y sueltan a sujetos con la fina- 
lidad de estimar el tamano y el grado de ciertas carac- 
teristicas en la poblacion. Se capturan 10 animales de 
una poblacion que se piensa extinta (o cerca de la 


extincion), se etiquetan y se liberan en cierta region. 
Despues de un periodo se selecciona en la region una 
muestra aleatoria de 15 animales del tipo. ^Cual es 
la probabilidad de que 5 de estos seleccionados sean 
animales etiquetados si hay 25 animales de este tipo 
en la region? 

5.48 Una companfa grande tiene un sistema de ins- 
pection para los lotes de compresores pequenos que se 
compran a los vendedores. Un lote ti'pico contiene 15 com- 
presores. En el sistema de inspection se selecciona una 
muestra aleatoria de 5 y todos se prueban. Suponga que 
en el lote de 15 hay 2 compresores defectuosos. 

а) ^.Cual es la probabilidad de que para una muestra 
dada haya 1 compresor defectuoso? 

б) ^.Cual es la probabilidad de que la inspection descu- 
bra ambos compresores defectuosos? 

5.49 Una fuerza de tarea gubernamental sospecha 
que algunas fabricas infringen los reglamentos federa- 
tes contra la contamination ambiental en cuanto a la 
descarga de cierto tipo de producto. Veinte empresas 
estan bajo sospecha pero no todas se pueden inspec- 
cionar. Suponga que 3 de las empresas infringen los 
reglamentos. 

a) ^Cual es la probabilidad de que la inspection de 
5 empresas no encuentre ninguna infraction? 

b) ^Cual es la probabilidad de que el plan anterior en- 
cuentre a dos que infringen el reglamento? 

5.50 Cada hora, una maquina llena 10,000 latas de 
bebida gaseosa, entre las cuales se producen 300 con 
un llenado insuficiente. Cada hora se elige al azar una 
muestra de 30 latas y se verifica el numero de onzas de 
gaseosa. Denote con A' el numero de latas seleccionadas 
que tiene llenado insuficiente. Encuentre la probabili- 
dad de que habra al menos una con llenado insuficiente 
entre las muestreadas. 


5.5 Distribuciones binomial negativa y geometrica 

Consideremos un experimento donde las propiedades son las mismas que las que 
se indican para un experimento binomial, con la exception de que las pruebas se 
repetiran hasta que ocurra un numero fijo de exitos. Por lo tanto, en vez de encon- 
trar la probabilidad de x exitos en n pruebas, donde n es fija, ahora nos interesa la 
probabilidad de que ocurra el fc-esimo exito en la x-esima prueba. Los experimentos 
de este tipo se Hainan experimentos binomiales negativos. 

Como ejemplo, considere el uso de un medicamento que se sabe que es efectivo en 
60% de los casos en que se utiliza. El uso del medicamento se considerara un exito 
si es efectivo al proporcionar algun grado de alivio al paciente. Nos interesa encon- 
trar la probabilidad de que el quinto paciente que experimente alivio sea el septimo 
paciente en recibir el medicamento en una semana dada. Designamos exito con S y 
fracaso con F, un orden posible para alcanzar el resultado que se clesea es SFSSSFS, 
que ocurre con probabilidad 


(0.6) (0.4) (0.6) (0.6) (0.6) (0.4) (0.6) = (0.6) 5 (0.4) 2 . 



5.5 Distribuciones binomial negativa y geometrica 


159 


Podriamos listar todos los posibles ordenes mediante el reacomodo de las F y las S 
excepto para el ultimo resultado, que debe ser el quinto exito. El numero total de 
ordenes posibles es igual al numero de particiones de las primeras seis pruebas en dos 
grupos con 2 fracasos asignados a un grupo y los 4 exitos asignados al otro grupo. 
Esto se puede realizar de (®) = 15 formas mutuamente excluyentes. De aqui, si X 
representa el resultado en el que ocurre el quinto exito, entonces 

P(X = 7) = ( 6 ^j (0.6) 5 (0.4) 2 = 0.1866. 


^Cual es la variable aleatoria binomial negativa? 

El numero X de pruebas que genera k exitos en un experimento binomial negati- 
vo se llama variable aleatoria binomial negativa y su distribution de probabilidad 
se llama distribucion binomial negativa. Como sus probabilidades dependen del 
numero de exitos que se desean y la probabilidad de un exito en una prueba clada, 
las denotaremos con el sfmbolo 6*(x; k, p). Para obtener la formula general para 
6*(x; k, p), considere la probabilidad de un exito en la x-esima prueba precedido 
por k — 1 exitos y x — k fracasos en un orden especffico. Como las pruebas son 
independientes, podemos multiplicar todas las probabilidades que corresponden a 
cada resultado que se desea. Cada exito ocurre con probabilidad p y cada fracaso 
con probabilidad q = 1 — p. Por lo tanto, la probabilidad para el orden especffico, 
que termina en un exito, es 

p k ~ 1 q x ~ k p = p k q x ~ k . 

El numero total de puntos muestrales en el experimento que termina en un exito, 
despues de la ocurrencia de k — 1 exitos y x — k fracasos en cualquier orden, es 
igual al numero de particiones de x — 1 pruebas en dos grupos con k — 1 exitos 
que corresponden a un grupo y x — k fracasos que corresponden al otro grupo. Este 
numero se especifica con el termino cada uno es mutuamente excluyente y 

ocurre con igual probabilidad p k (f~ k . Obtenemos la formula general al multiplicar 
p k cf~ k por (“:!). 


Distribucion 

binomial 

negativa 


Si pruebas independientes repetidas pueden tener como resultado un exito con 
probabilidad p y un fracaso con probabilidad q = 1 — p, entonces la distribucion 
de probabilidad de la variable aleatoria X, el numero de la prueba en la que ocu- 
rre el fc-esimo exito, es 


b*(x; k,p ) 


x — 1 

k- 1 


P V-\ 


x = k, k + 1, k + 2, . . . 


Ejemplo 5.17:1 En la serie de campeonato de la nba (Asociacion National de Basquetbol), el equipo 
que gane cuatro juegos de siete sera el gandor. Suponga que el equipo A tiene una 
probabilidad de 0.55 de ganarle al equipo B, y que ambos equipos, A y B, se enfren- 
taran entre sf en los juegos de campeonato. 

a) iCual es la probabilidad de que el equipo A ganara la serie en seis juegos? 

b ) ^Cual es la probabilidad de que el equipo A ganara la serie? 

c) Si ambos equipos se enfrentan entre sf en una serie regional de play-off y el ga- 
nador es quien gana tres de cinco juegos, ^cual es la probabilidad de que el equipo 
A ganara un juego de play-off? 
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Solucion: a) b* (6; 4, 0.55) = (|) 0 . 55 4 ((1 - 0 . 55) 6 ” 4 = 0 . 1853 . 

b) P(e 1 equipo A gana la serie de campeonato) es 

b* (4; 4, 0.55) + b* (5; 4, 0.55) + b* (6; 4, 0.55) + b*{ 7; 4, 0.55) 

= 0.0915 + 0.1647 + 0.1853 + 0.1668 = 0.6083. 

c) P(el equipo A gana el juego de playoff) es 

6*(3; 3, 0.55) + 6* (4; 3, 0.55) + P(5; 3, 0.55) 

= 0.1664 + 0.2246 + 0.2021 = 0.5931. 

La distribution binomial negativa deriva su nombre del hecho de que cada ter- 
mino de la expansion de p k ( 1 — q)~ k corresponde a los valores de b*(x, k, p ) para 
x = k, k + 1, k + 2, . . . . Si consideramos el caso especial de la distribution binomial 
negativa donde k = 1, tenemos una distribution de probabilidad para el numero de 
pruebas que se requieren para un solo exito. Un ejemplo seria lanzar una moneda 
hasta que saiga una cara. Nos podemos interesar en la probabilidad de que ocurra la 
primera cara en el cuarto lanzamiento. La distribucion binomial negativa se reduce 
a la forma 

b*(x;l,p)=pq x ~ 1 , x = 1,2,3,.... 

Como los terminos sucesivos constituyen una progresion geometrica, se acostumbra 
referirse a este caso especial como la distribucion geometrica y denotar sus va- 
lores con g{ x; p). 


Distribucion Si pruebas independientes repetidas pueden tener como resultado un exito con 
geometrica probabilidad p y un fracaso con probabilidad q = 1 — p, entonces la distribucion 
de probabilidad de la variable aleatoria X, el numero de la prueba en el que ocu- 
rre el primer exito, es 


g(x\p) = pq x 1 , x = 1,2,3, .... 


Ejemplo 5.18:1 Se sabe que en cierto proceso de fabrication, en promedio, uno de cada 100 articulos 
esta defectuoso. iCual es la probabilidad de que el quinto articulo que se inspecciona 
sea el primer defectuoso que se encuentra? 

Solucion: Utilizando la distribucion geometrica con x = 5 y p = 0.01, tenemos 

g(5; 0.01) = (0.01)(0.99) 4 = 0.0096. 


Ejemplo 5.19:1 En “tiempo ocupado” un conmutador telefonico esta muy cerca de su capacidad, por 
lo que los usuarios tienen dificultad al hacer sus llamadas. Puede ser de interes co- 
nocer el numero de intentos necesario para conseguir un enlace telefonico. Suponga 
que p = 0.05 es la probabilidad de conseguir un enlace durante el tiempo ocupado. 
Nos interesa conocer la probabilidad de que se necesiten 5 intentos para una llamada 
exitosa. 

Solucion: El uso de la distribucion geometrica con x = 5 y p = 0.05 da 

P(X = x) = 3(5; 0.05) = (0.05)(0.95) 4 = 0.041. 

Muy a menudo, en aplicaciones que tienen que ver con la distribucion hiper- 
geometrica, la media y la varianza son importantes. Es asi que, en el ejemplo 5.19 el 
numero esperado de llamadas necesario para lograr un enlace es muy importante. 
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A continuation se establecen, sin clemostracion, la media y la varianza de la distri- 
bution geometrica. 


Teorema 5.4: 


La media y la varianza de una variable aleatoria que sigue la distribution geome- 
trica son 



1 ~P 


P 


2 


Aplicaciones de distribuciones binomial negativa y geometrica 

Las areas de aplicacion para las distribuciones binomial negativa y geometrica son 
evidentes cuando nos enfocamos en los ejemplos de esta section y en los ejercicios 
que se dedican a tales distribuciones al final de la section 5.6. En el caso de la dis- 
tribution geometrica, el ejemplo 5.19 describe una situation donde los ingenieros o 
administradores intentan determinar cuan ineficiente es un sistema de commutation 
telefonica durante periodos ocupados. En este caso, claramente las pruebas ocurren 
antes de que un exito represente un costo. Si hay una alta probabilidad de hacer 
varios intentos antes del enlace, entonces se deberfan hacer planes para redisehar el 
sistema. 

Las aplicaciones de la binomial negativa son similares por naturaleza. Los inten- 
tos son costosos en algun sentido y ocurren en sucesion. Una alta probabilidad de 
que se requiera un numero “grande” de intentos para experimentar un numero fijo 
de exitos no es benefica para el cientffico ni para el ingeniero. Considere los escena- 
rios de los ejercicios de repaso 5.94 y 5.95. En el ejercicio 5.95 el perforador define 
cierto nivel de exitos a partir de los sitios de perforation secuenciales que se hacen en 
busca de petroleo. Si solo se llevan seis intentos al momento en que se experimenta 
el segundo exito, las utilidades parecen dominar de forma considerable la inversion 
requerida por la perforation. 


5.6 Distribution de Poisson y proceso de Poisson 

Los experimentos que dan valores numericos de una variable aleatoria X, el numero 
de resultados que ocurren durante un intervalo dado o en una region especffica, se 
Hainan experimentos de Poisson. El intervalo dado puede ser de cualquier lon- 
gitud, como un minuto, un dfa, una semana, un mes o incluso un aho. Por ello, un 
experimento de Poisson puede generar observaciones para la variable aleatoria X 
que representa el numero de llamadas telefonicas por hora que recibe una oficina, 
el numero de dfas que la escuela permanece cerrada debido a la nieve durante el in- 
vierno o el numero de juegos suspendidos debido a la lluvia durante la temporada de 
beisbol. La region especffica podrfa ser un segmento de lfnea, un area, un volumen o 
quiza una pieza de material. En tales casos X puede representar el numero de ratas 
de campo por acre, el numero de bacterias en un cultivo dado o el numero de errores 
mecanograficos por pagina. Un experimento de Poisson se deriva del proceso de 
Poisson y tiene las siguientes propiedades: 

Propiedades del proceso de Poisson 

1 . El numero de resultados que ocurren en un intervalo o region especffica es inde- 
pendiente del numero que ocurre en cualquier otro intervalo o region del espacio 
disjunto. De esta forma vemos que el proceso de Poisson no tiene memoria. 
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2. La probabilidad de que ocurra un solo resultado durante un intervalo muy 
corto o en una region pequena es proporcional a la longitud del intervalo o al 
tamano de la region, y no depende del numero de resultados que ocurren fuera 
de este intervalo o region. 

3. La probabilidad de que ocurra mas de un resultado en tal intervalo corto o que 
caiga en tal region pequena es insignificante. 

El numero X de resultados que ocurren durante un experimento de Poisson se 
llama variable aleatoria de Poisson y su distribution de probabilidad se llama 
distribucion de Poisson. El numero medio de resultados se calcula de p = A t, don- 
de t es el “tiempo”, la “distancia”, el “area” o el “volumen” especificos de interes. 
Como sus probabilidades dependen de A, la tasa de ocurrencia de los resultados, las 
denotaremos con el sfmbolo P(x\ At). La derivation de la formula para p(x; At), que 
se basa en las tres propiedades de un proceso de Poisson que se listan arriba, esta 
fuera del alcance de este texto. El siguiente concepto se utiliza para calcular proba- 
bilidades de Poisson. 


Distribucion La distribucion de probabilidad de la variable aleatoria de Poisson X, que repre- 
de Poisson senta el numero de resultados que ocurren en un intervalo dado o region especffi- 
cos se clenota con t, es 

, , , e~ xt (X t) x 

p(x\ At) = : , a; = 0,1,2,..., 

x\ 

donde A es el numero promedio de resultados por unidad de tiempo, distancia, 
area o volumen, ye = 2.71828 

La tabla A. 2 contiene la suma de la probabilidad de Poisson 

r 

P(r; At) = ^ p(x; At), 

x—0 

para algunos valores selectos de At que van de 0.1 a 18. Ilustramos el uso de esta 
tabla con los siguientes dos ejemplos. 


Ejemplo 5.20:1 Durante un experimento de laboratorio el numero promedio de partfculas radiacti- 
vas que pasan a traves de un contador en un milisegundo es 4. ^Cual es la probabi- 
lidad de que 6 partfculas entren al contador en un milisegundo dado? 

Solucion: Al usar la distribucion de Poisson con x = 6 y At = 4, y la tabla A. 2, tenemos que 

— 4 4 6 6 5 

p(6; 4) = — — = V p(x; 4) - V p(x; 4) = 0.8893 - 0.7851 = 0.1042. 

6 ! z — ' z — ' 

x=0 x=0 


Ejemplo 5.21:1 El numero promedio de camiones-tanque que llega cada dfa a cierta ciudad portuaria es 
10. Las instalaciones en el puerto pueden manejar a lo mas 15 camiones-tanque por dfa. 
^Cual es la probabilidad de que en un dfa dado los camiones se tengan que regresar? 
Solucion: Sea X el numero de camiones-tanque que llegan cada dfa. Entonces, usando la tabla 
A. 2, tenemos 


15 

P(X > 15) = 1 - P(X < 15) = 1 - y p{x; 10) = 1 - 0.9513 = 0.0487. 

x=0 


J 
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Como la distribution binomial, la distribution de Poisson se utiliza para control 
de calidad, aseguramiento de calidad y muestreo de aceptacion. Aclemas, ciertas 
distribuciones continuas importantes que se usan en la teoria de confiabilidad y en 
la teoria de colas clependen del proceso de Poisson. Algunas de estas distribuciones 
se estudian y se desarrollan en el capitulo 6. 


Teorema 5.5: 


Tanto la media como la varianza de la distribution de Poisson p(x; At) tienen el 
valor At. 


La demostracion de este teorma se encuentra en el Apendice A. 26. 

En el ejemplo 5.20, donde At = 4, tambien tenemos a 2 = 4 y, por ello, a = 2. Uti- 
lizando el teorema de Chebyshev, establecemos que nuestra variable aleatoria tiene 
una probabilidad de, al menos, 3/4 de caer en el intervalo p ± 2a = 4 ± (2)(2), o 
de 0 a 8. Por lo tanto, concluimos que, al menos, tres cuartos de las veces el numero de 
particulas radiactivas que entran al contador estara en cualquier valor entre 0 y 8 
durante un milisegundo dado. 


Distribucion de Poisson como forma limitante de la binomial 

Considerando los tres principios del proceso de Poisson deberia ser evidente de que 
la distribucion de Poisson se relaciona con la distribucion binomial. Aunque la de 
Poisson, por lo general, encuentra aplicaciones en problemas de espacio y tiempo 
como se ilustra con los ejemplos 5.20 y 5.21, se puede ver como una forma limitante 
de la distribucion binomial. En el caso de la binomial, si n es bastante grande y p es 
pequena, las condiciones comienzan a simular las implicaciones de espacio continuo 
o region temporal del proceso de Poisson. La independence entre las pruebas de 
Bernoulli en el caso binomial es consistente con la propiedad 2 del proceso de Pois- 
son. Si se hace al parametro p cercano a cero se relaciona con la propiedad 3 del 
proceso de Poisson. De hecho, si n es grande y p es cercana a 0, se puede usar la 
distribucion de Poisson, con p = np, para aproximar probabilidades binomiales. Si 
p es cercana a 1, aun podemos utilizar la distribucion de Poisson para aproximar 
probabilidades binomiales mediante el intercambio de lo que definimos como exito y 
fracaso, y asi cambiamos p a un valor cercano a 0. 


Teorema 5.6: 


Sea X una variable aleatoria binomial con distribucion de probabilidad b(x\ n, p). 

n — >oo 

Cuando n — > oo, p — >0,y^P — > M permanece constante, 

b(x; n,p) p(x;p). 


La demostracion de este teorema se encuentra en el Apendice A. 27. 

Naturaleza de la funcion de probabilidad de Poisson 

Al igual que muchas distribuciones discretas y continuas, la forma de la distribucion 
se vuelve cada vez mas simetrica, incluso con forma de campana, conforme la media se 
hace mas grande. La figura 5.2 ilustra lo anterior. Tenemos graficas de la funcion 
de probabilidad para p = 0.1, p = 2 y finalmente p = 5. Observe la cercania con 
la simetrfa conforme p se vuelve tan grande como 5. Una condition similar existe 
para la distribucion binomial como se ilustrara en el lugar adecuado mas adelante 
en este texto. 
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Figura 5.2: Funciones de densidad de Poisson para medias diferentes. 


Ejemplo 5.22:1 En ciertas instalaciones industriales los accidentes ocurren con muy poca frecuencia. 

Se sabe que la probabilidad de un accidente en cualquier dia dado es 0.005 y los 
accidentes son independientes entre si. 

a) ^Cual es la probabilidad de que en cualquier periodo dado de 400 dias habra un 
accidente en un dia? 

b) ^Cual es la probabilidad de que haya a lo mas tres dias con un accidente? 
Solucion: Sea X una variable aleatoria binomial con n = 400 y p = 0.005. Asi, np = 2. Con la 

aproximacion de Poisson, 

a) P(X = 1) = e~ 2 2 1 = 0.271 y 

3 ■ 

b) P(X < 3) = £ e~ 2, Z x /x\ = 0.857. 

X=Q 

Ejemplo 5.23:1 En un proceso de fabrication donde se manufacturan productos de vidrio ocurren 
defectos o burbujas, lo cual ocasionalmente deja a la pieza indeseable para su venta. 
Se sabe que, en promedio, 1 de cada 1000 de estos articulos que se producen tiene 
una o mas burbujas. ^Cual es la probabilidad de que una muestra aleatoria de 8000 
tenga menos de 7 articulos con burbujas? 

Solucion: Este es en esencia un experimento binomial con n = 8000 yp = 0.001. Como p es 
muy cercana a cero y n es bastante grande, haremos la aproximacion con la distri- 
bution de Poisson utilizando 

p = (8000) (0.001) = 8. 

De aqui, si X representa el numero de burbujas, tenemos 

6 

P(X < 7) = b (x; 8000, 0.001) w p(x; 8) = 0.3134. 

LC — 0 
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Ej ercicios 

5.51 La probabilidad de que una persona, que vive 
en cierta ciudad, tenga un perro se estima en 0.3. En- 
cuentre la probabilidad de que la decima persona en- 
trevistada al azar en esta ciudad sea la quinta que tiene 
un perro. 

5.52 Un cientffico inocula a varios ratones, uno a la 
vez, con el germen de una enfermedad hasta que en- 
cuentra a 2 que contraen la enfermedad. Si la proba- 
bilidad de contraer la enfermedad es 1/6, ^cual es la 
probabilidad de que se requieran 8 ratones? 

5.53 El estudio de un inventario determina que, en 
promedio, las demandas de un artfculo particular en un 
almacen se realizan 5 veces al dfa. ^Cual es la probabi- 
lidad de que en un dfa dado se pida este artfculo 

a) mas de 5 veces? 

b) ninguna vez? 

5.54 Encuentre la probabilidad de que una persona 
que lanza una moneda obtenga 

a) la tercera cara en el septimo lanzamiento; 

b) la primera cara en el cuarto lanzamiento. 

5.55 Tres personas lanzan una moneda legal y el 
disparejo paga los cafes. Si todas las monedas tienen 
el mismo resultado, se lanzan de nuevo. Encuentre la 
probabilidad de que se necesiten menos de 4 lanza- 
mientos. 

5.56 De acuerdo con un estudio publicado por un 
grupo de sociologos de la Universidad de Massachu- 
setts, en Estados Unidos cerca de dos tercios de los 20 
millones de personas que consumen Valium son muje- 
res. Suponga que esta cifra es una estimation valida, 
y encuentre la probabilidad de que en un dfa dado la 
quinta prescription de Valium que da un medico sea 

a) la primera que prescribe Valium para una mujer; 

b) la tercera que prescribe Valium para una mujer. 

5.57 La probabilidad de que un estudiante para pilo- 
to apruebe el examen escrito para obtener una licencia 
de piloto privado es 0.7. Encuentre la probabilidad de 
que el estudiante aprobara el examen 

a) en el tercer intento; 

b) antes del cuarto intento. 

5.58 En promedio en cierto crucero ocurren tres acci- 
dentes de transito por mes. ^Cual es la probabilidad de 
que para cualquier mes dado en este crucero 

a) ocurran exactamente 5 accidentes? 

b) ocurran menos de 3 accidentes? 

c) ocurran al menos 2 accidentes? 


5.59 Una secretaria comete dos errores por pagina, 
en promedio. ^Cual es la probabilidad de que en la 
siguiente pagina cometa 

a) 4 o mas errores? 

b ) ningun error. 

5.60 Cierta area del este de Estados Unidos resulta, 
en promedio, afectada por 6 huracanes al ano. Encuen- 
tre la probabilidad de que para cierto ano esta area 
resulte afectada por 

a) menos de 4 huracanes; 

b ) cualquier cantidad entre 6 a 8 huracanes. 

5.61 Suponga que la probabilidad de que una perso- 
na dada crea un rumor acerca de las transgresiones de 
cierta actriz famosa es 0.8. ^,Cual es la probabilidad 
de que 

a) la sexta persona en escuchar este rumor sea la cuar- 
ta en creerlo? 

b) la tercera persona en escuchar este rumor sea la pri- 
mera en creerlo? 

5.62 El numero promedio de ratas de campo por acre 
en un campo de 5 acres de trigo se estima en 12. En- 
cuentre la probabilidad de que se encuentren menos de 
7 ratas de campo 

a) en un acre dado; 

b) en 2 de los siguientes 3 acres que se inspeccionen. 

5.63 El chef de un restaurante prepara una ensalada 
revuelta que contiene, en promedio, 5 vegetales. En- 
cuentre la probabilidad de que la ensalada contenga 
mas de 5 vegetales 

a) en un dfa dado; 

b) en 3 de los siguientes 4 dfas; 

c) por primera vez en abril el dfa 5. 

5.64 La probabilidad de que una persona muera de 
cierta infection respiratoria es 0.002. Encuentre la pro- 
babilidad de que mueran menos de 5 de los siguientes 
2000 infectados de esta forma. 

5.65 Suponga que, en promedio, 1 persona en 1000 
comete un error numerico al preparar su declaration de 
impuestos. Si se seleccionan 10,000 formas al azar y se 
examinan, encuentre la probabilidad de que 6, 7 u 8 
de las formas contengan un error. 

5.66 Se sabe que la probabilidad de que un estudiante 
de una preparatoria local presente escoliosis (curvatu- 
ra de la espina dorsal) es 0.004. De los siguientes 1875 
estudiantes que se revisen en busqueda de escoliosis, 
encuentre la probabilidad de que 

a) menos de 5 presenten el problema; 

b) 8, 9 o 10 presenten el problema. 
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5.67 a) Encuentre la media y la varianza de la varia- 
ble aleatoria X, que representa el numero de perso- 
nas entre 2000 que mueren de la infection respirato- 
ria del ejercicio 5.64. 

b ) De acuerdo con el teorema de Chebyshev, /.hay una 
probabilidad de al menos 3/4 de que el numero de 
personas que moriran entre las 2000 infectadas caiga 
dentro de un intervalo? ^De cual? 

5.68 a) Encuentre la media y la varianza de la varia- 
ble aleatoria X, que representa el numero de perso- 
nas entre 10,000 que cometen un error al preparar 
su declaration de impuestos del ejercicio 5.55. 

b) De acuerdo con el teorema de Chebyshev, /.hay una 
probabilidad de al menos 8/9 de que el numero de 
personas que cometeran errores al preparar sus de- 
claraciones de impuestos entre 10,000 este dentro de 
un intervalo? ^De cual? 

5.69 Un fabricante de automoviles se preocupa por 
una falla en el mecanismo de freno de un modelo es- 
pecffico. La falla puede causar en raras ocasiones una 
catastrofe a alta velocidad. Suponga que la distribution 
del numero de automoviles por ano que experimentara la 
falla es una variable aleatoria de Poisson con A = 5. 

a) ^,Cual es la probabilidad de que, a lo mas, 3 auto- 
moviles por ano sufran una catastrofe? 

b) ^Cual es la probabilidad de que mas de 1 automovil 
por ano experimente una catastrofe? 

5.70 Los cambios en los procedimientos de los ae- 
ropuertos requieren una planeacion considerable. Los 
indices de llegadas de los aviones son factores impor- 
tantes que deben tomarse en cuenta. Suponga que los 
aviones pequenos llegan a cierto aeropuerto, de acuerdo 
con un proceso de Poisson, con un indice de 6 por hora. 
De esta manera, el parametro de Poisson para las lle- 
gadas en un periodo de horas es p = 6 1. 

a) ^Cual es la probabilidad de que exactamente 4 
aviones pequenos lleguen durante un periodo de 1 
hora? 

b) ^Cual es la probabilidad de que al menos 4 lleguen 
durante un periodo de 1 hora? 

c) Si definimos un dfa laboral como 12 horas, ^cual es 
la probabilidad de que al menos 75 aviones pequenos 
lleguen durante un dfa? 

5.71 El numero de clientes que llegan por hora a cier- 
tas instalaciones de servicio automotriz se supone que 
sigue una distribution de Poisson con media A = 7. 

a) Calcule la probabilidad de que mas de 10 clientes 
lleguen en un periodo de 2 horas. 

b) ^Cual es el numero medio de llegadas durante un 
periodo de 2 horas? 

5.72 Considere el ejercicio 5.66. ^Cual es el numero 
medio de estudiantes que fallan en el examen? 


5.73 La probabilidad de que una persona muera cuan- 
do contrae una infection por virus es 0.001. De los si- 
guientes 4000 infectados con virus, ^cual es el numero 
medio que morira? 

5.74 Una companfa compra lotes grandes de cierta 
clase de dispositivo electronico. Se utiliza un metodo 
que rechaza un lote si se encuentran 2 o mas unidades 
defectuosas en una muestra aleatoria de 100 unidades. 

a) ^Cual es el numero medio de unidades defectuosas 
que se encuentran en una muestra de 100 unidades 
si el lote tiene 1% de defectuosas? 

b) ^Cual es la varianza? 

5.75 En el caso de cierto tipo de alambre de cobre, 
se sabe que, en promedio, ocurren 1.5 fallas por mili- 
metro. Suponiendo que el numero de fallas es una va- 
riable aleatoria de Poisson, ^,cual es la probabilidad de 
que no ocurran fallas en cierta procion de alambre con 
longitud de 5 milimetros? ^Cual es el numero medio de 
fallas en una portion de 5 milimetros de longitud? 

5.76 Los baches en ciertas carreteras pueden ser un 
problema grave y tener la necesidad constante de re- 
pararse. Con un tipo especifico de terreno y mezcla de 
concreto, la experiencia sugiere que hay, en promedio, 
2 baches por milla despues de cierta cantidad de uso. 
Se supone que el proceso de Poisson se aplica a la va- 
riable aleatoria “numero de baches”. 

a) ^,Cual es la probabilidad de que no mas de un bache 
aparezca en un tramo de una milla? 

b) ^Cual es la probabilidad de que no mas de 4 baches 
ocurriran en un tramo dado de 5 millas? 

5.77 En ciudades grandes los administradores de los 
hospitales se preocupan por la cuestion del trafico de 
personas en las salas de urgencias de los nosocomios. 
Para un hospital especifico en una ciudad grande, el 
personal disponible no puede alojar el trafico de pacien- 
tes cuando hay mas de 10 casos de emergencia en una 
hora dada. Se supone que la llegada del paciente sigue 
un proceso de Poisson y los datos historicos sugieren 
que, en promedio, llegan 5 emergencias cada hora. 

a) ^,Cual es la probabilidad de que en una hora dada el 
personal no pueda alojar mas al trafico? 

b) ^Cual es la probabilidad de que mas de 20 emergencias 
lleguen durante un turno de 3 horas del personal? 

5.78 En las revisiones de equipaje en el aeropuerto 
se sabe que 3% de la gente isnpeccionada lleva objetos 
cuestionables en su equipaje. ^.Cual es la probabilidad 
de que una serie de 15 personas cruce sin problemas 
antes de que se atrape a un individuo con un objeto 
cuestionable? ^Cual es el numero esperado en una fila 
que pasa antes de que se detenga a un invividuo? 

5.79 La tecnologia cibernetica genero un ambiente 
donde los “robots” funcionan con el uso de microproce- 



Ejercicios de repaso 


167 


sadores. La probabilidad de que un robot falle durante 
cualquier turno de 6 horas es 0.10. ^.Cual es la proba- 
bilidad de que un robot funcionara durante al menos 
5 turnos antes de fallar? 

5.80 Se sabe que la tasa de rechazo en las encuestas 
telefonicas es de aproximadamente 20%. Un reportaje 


Ejercicios de repaso 

5.81 Durante un proceso de production se seleccio- 
nan al azar 15 unidades cada di'a de la lfnea de ensam- 
ble para verificar el porcentaje de defectuosos. A partir 
de information historica se sabe que la probabilidad de 
tener una unidad defectuosa es 0.05. En cualquier mo- 
mento en que se encuentran dos o mas unidades defec- 
tuosas en la muestra de 15, el proceso se detiene. Este 
procedimiento se utiliza para proporcionar una serial 
en caso de que aumente la probabilidad de unidades 
defectuosas. 

a) ^Cual es la probabilidad de que en un di'a dado el 
proceso de production se detenga? (Suponga 5% de 
unidades defectuosas.) 

b) Suponga que la probabilidad de una unidad defec- 
tuosa aumenta a 0.07. ^Cual es la probabilidad de 
que en algun dfa dado el proceso de production no 
se detenga? 

5.82 Una maquina automatica de soldar se considera 
para la production. Se considerara para su cornpra si 
es exitosa en 99% de sus soldaduras. De otra manera, 
no se considerara eficiente. Se lleva a cabo la prueba de 
un prototipo que realizara 100 soldaduras. La maquina 
se aceptara para la production si no falla en mas de 3 
soldaduras. 

а) ^,Cual es la probabilidad de que se rechace una bue- 
na maquina? 

б) ^Cual es la probabilidad de que se acepte una ma- 
quina ineficiente con 95% de soldaduras exitosas? 

5.83 Una agenda de renta de automoviles en un ae- 
ropuerto local tiene disponibles 5 Ford, 7 Chevrolet, 
4 Dodge, 3 Honda y 4 Toyota. Si la agenda selecciona 
al azar 9 de estos automoviles para transportar dele- 
gados desde el aeropuerto hasta el centro de convencio- 
nes del centro de la ciudad, encuentre la probabilidad de 
que se utilicen 2 Ford, 3 Chevrolet, 1 Dodge, 1 Honda 
y 2 Toyota. 

5.84 Las llamadas de servicio llegan a un centro de 
mantenimiento de acuerdo con un proceso de Pois- 
son con un promedio de 2.7 llamadas por minuto. En- 
cuentre la probabilidad de que 

a) no mas de 4 llamadas lleguen en cualquier minuto; 

b) lleguen menos de 2 llamadas en cualquier minuto; 

c) lleguen mas de 40 llamadas en un periodo de 5 mi- 
nutos. 


del periodico indica que se encuestaron a 50 personas 
antes de que la primera rechazara. 

a) Comente acerca de la validez del reportaje. Utilice 
una probabilidad en su argumnento. 

b) ^Cual es el numero esperado de personas encuesta- 
das antes de un rechazo? 


5.85 Una empresa de electronica afirma que la pro- 
portion de unidades defectuosas de cierto proceso es 
5%. Un comprador tiene un procedimiento estandar 
para inspeccionar 15 unidades que selecciona al azar de 
un lote grande. En una ocasion espetifica, el comprador 
encuentra 5 artfculos defectuosos. 

a) ^Cual es la probabilidad de esta ocurrencia, dado 
que la ahrmacion de 5% de defectuosos es correcta? 

b) ^Cual seri'a su reaction si fuera el comprador? 

5.86 Un dispositivo electronico de conmutacion oca- 
sionalmente falla y podrfa ser necesario su reemplazo. 
Se sabe que el dispositivo es satisfactory si, en prome- 
dio, no comete mas de 0.20 errores por liora. Se elige un 
periodo particular de cinco horas como “prueba” del 
dispositivo. Si no ocurre mas de 1 error, el dispositivo 
se considera satisfactorio. 

a) ^Cual es la probabilidad de que un dispositivo satis- 
factorio se considere que no lo es sobre la base de la 
prueba? Suponga que existe un proceso de Poisson. 

b) ^Cual es la probabilidad de que un dispositivo se 
acepte como satisfactorio cuando, de hecho, el nu- 
mero medio de errores es 0.25? De nuevo, suponga 
que existe un proceso de Poisson. 

5.87 Una companfa, por lo general, cornpra lotes gran- 
des de cierta clase de dispositivo electronico. Se utiliza 
un metodo que rechaza un lote, si se encuentran dos o 
mas unidades defectuosas en una muestra aleatoria de 
100 unidades. 

а) ^,Cual es la probabilidad de rechazar un lote que 
tiene 1% de unidades defectuosas? 

б) ^Cual es la probabilidad de aceptar un lote que tiene 
5% de unidades defectuosas? 

5.88 El propietario de una farmacia local sabe que, 
en promedio, llegan a su farmacia 100 personas cada 
hora. 

a) Encuentre la probabilidad de que en un periodo 
dado de 3 minutos nadie entre a la farmacia. 

b) Encuentre la probabilidad de que en un periodo 
dado de 3 minutos entren mas de 5 personas a la 
farmacia. 

5.89 a) Suponga que lanza 4 dados. Encuentre la 
probabilidad de que obtenga al menos un 1. 
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b) Suponga que lanza 24 veces 2 dados. Encuentre la 
probabilidad de que obtenga al menos uno (1, 1), 
es decir, que lanza “ojos de serpiente” [Nota: La 
probabilidad del inciso a) es mayor que la del inciso 

b )•] 

5.90 Suponga que se venden 500 billetes de loterfa. 
Entre ellos, 200 billetes pagan al menos el costo del bi- 
llete. Suponga ahora que compra 5 billetes. Encuentre 
la probabilidad de que gane al menos el costo de 3 
billetes. 

5.91 Las imperfecciones en las tarjetas de circuitos y 
los chips para computadora se prestan por si' mismos 
a tratamiento estadi'stico. Para un tipo particular de 
tarjeta la probabilidad de falla de un diodo es 0.03. 
Suponga que una tarjeta de circuitos contiene 200 dio- 
dos. 

a) ^Cual es el numero medio de fallas entre los dio- 
dos? 

b) ^Cual es la varianza? 

c) La tarjeta funcionara si no hay diodos defectuosos. 
^Cual es la probabilidad de que una tarjeta funcio- 
ne? 

5.92 El comprador potencial de un motor particular 
requiere (entre otras cuestiones) que el motor encienda 
exitosamente 10 veces consecutivas. Suponga que la 
probabilidad de un encendido exitoso es 0.990. Supon- 
gamos que los resultados de intentos de encendido son 
independientes. 

a) ^Cual es la probabilidad de que el motor sea acepta- 
do despues de solo 10 encendidos? 

b) ^Cual es la probabilidad de que se realicen 12 inten- 
tos de encendido durante el proceso de aceptacion? 

5.93 El esquema de aceptacion para comprar lotes 
que contienen un numero grande de bateri'as consiste 
en probar no mas de 75 bateri'as seleccionadas al azar, 
y rechazar un lote si falla una sola baten'a. Suponga 
que la probabilidad de una falla es 0.001. 

a) ^,Cual es la probabilidad de que se acepte un lote? 

b) ^Cual es la probabilidad de que se rechace un lote en 
la 20a. prueba? 

c) ^Cual es la probabilidad de que se rechace en 10 o 
menos pruebas? 

5.94 Una companfa perforadora de pozos petroleros 
se arriesga en varios sitios, y su exito o fracaso es inde- 
pendiente de un sitio a otro. Suponga que la probabili- 
dad de exito en cualquier sitio especi'fico es 0.25. 

a) ^Cual es la probabilidad de que un perforador barre- 
ne 10 sitios y tenga 1 exito? 

b) El perforador cree que ira a la bancarrota si per- 
fora 10 veces antes de que ocurra el primer exito. 
^Cuales son las perspectivas del perforador para la 
bancarrota? 


5.95 Considere la information del ejercicio de repa- 
so 5.94. El perforador cree que “dara en el clavo” si 
el segundo exito ocurre en o antes del sexto intento. 
^Cual es la probabilidad de que el perforador “de en 
el clavo”? 

5.96 Una pareja de esposos decide que continuaran 
teniendo liijos hasta que tengan dos liombres. Supo- 
niendo que P(hombre) = 0.5, ^cual es la probabilidad 
de que su segundo hombre sea su cuarto hijo? 

5.97 Por los investigadores se sabe que 1 de cada 100 
personas es portadora del gen que lleva a la herencia 
de cierta enfermedad cronica. A partir de una muestra 
aleatoria de 1000 individuos, ^cual es la probabilidad 
de que menos de 7 individuos porten el gen? Utilizando 
la aproximacion de Poisson, ^,cual es el numero medio 
aproximado de personas de cada 1000 que portan el gen? 

5.98 Un proceso de manufactura produce piezas para 
componentes electronicos. Se supone con fundamento 
que la probabilidad de una pieza defectuosa es 0.01. 
Durante una prueba de esta suposicion, se muestrearon 
al azar 500 artfculos y se observaron 15 defectuosos de 
cada 500. 

a) ^Cual es su repuesta ante la suposicion de que el 
proceso es 1% defectuosos? Asegurese de que una 
probabilidad calculada acompana su comentario. 

b ) Con la suposicion de un proceso 1% defectuoso, ^cual 
es la probabilidad de que solo se encontrarfan 3 de- 
fectuosos? 

c) Resuelva de nueva cuenta los incisos o) y b) utili- 
zando la aproximacion de Poisson. 

5.99 Un proceso de manufactura produce artfculos 
en lotes de 50. Se dispone de planes de muestreo en los 
cuales los lotes se apartan periodicamente y se exponen 
a cierto tipo de inspection. Por lo genral, se supone 
que la proportion de defectuosos en el proceso es muy 
pequena. Tambien es importante para la companfa que 
los lotes que contienen defectuosos sean un evento raro. 
En la actualidad el plan de inspection para la compa- 
nfa consiste en periodicamente muestrear al azar 10 de 
cada 50 artfculos en un lote y, si no hay defectuosos, no 
se hace ninguna intervention al proceso. 

a) Suponga que se elige un lote al azar, y 2 de cada 50 
estan defectuosos. /.Cual es la probabilidad de que al 
menos 1 en la muestra de 10 del lote este defectuoso? 

b) A partir de su respuesta en el inciso a), comente 
sobre la calidad de este plan de muestreo. 

c) ^,Cual es el numero medio de defectuosos encontra- 
dos en cada 10? 

5.100 Considere la situation del ejercicio de repaso 
5.99. Se ha determinado que el plan de muestreo debe- 
rfa ser lo sifucientemente amplio como para que haya 
una probabilidad alta de, digamos, 0.9, de que si hay 
tantos como 2 defectuosos en el lote de 50 que se mues- 
trean, al menos 1 se encontrara en el muestreo. Con 
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tales restricciones, ^cuantos de los 50 deberian mues- 
trearse? 

5.101 Homeland Security y la tecnologfa de defensa 
de misiles hacen que seamos capaces de detectar pro- 
yectiles o misiles ofensivos. Para que la defensa sea exi- 
tosa se requieren multiples pantallas de radar. Suponga 
que se determina que hay tres pantallas independientes 
para operar y que la probabilidad de cualquiera de- 
tectara un misil ofensivo es 0.8. En efecto, si ninguna 
pantalla detecta un misil ofensivo, el sistema no sera 
confiable y debera reemplazarsre. 

a) ^Cual es la probabilidad de que un misil ofensivo no 
sera detectado por cualesquiera de las tres panta- 
llas? 

b) ^Cual es la probabilidad de que el misil no sera de- 
tectado por solo una pantalla? 

c) ^Cual es la probabilidad de que sera detectado por 
al menos dos de las tres pantallas. 

5.102 Considere el ejercicio de repaso 5.101. Supon- 
ga que es importante que el sistema general sea tan 
perfecto como sea posible. Suponiendo que la calidad 
de las pantallas es la que se indica en el ejercicio de 
repaso 5.101, 

a) ^cuantas se requieren para asegurarse de que la pro- 
babilidad de que el misil pase sin ser detectado sea 
0 . 0001 ? 

b) Suponga que se decide quedarse con solo 3 panta- 
llas e intentar mejorar la capacidad de deteccion 
de las mismas. ^Cual debe ser la eficacia individual de 
las pantallas (es decir, la probabilidad de deteccion), 


para alcanzar la eficacia que se requiere en el inciso 
a)? 

5.103 Regrese al ejercicio de repaso 5.99a). Vuelva 
a calcular la probabilidad de usar la distribution bino- 
mial. Comente. 

5.104 En cierto departamento de estadfstica en el 
pals hay dos vacantes. Cinco individuos las solicitan. 
Dos de ellos tienen habilidad en modelos lineales y uno 
tiene habilidad en probabilidad aplicada. Al comite de 
selection se le indico elegir a los dos miembros aleato- 
riamente. 

a) ^.Cual es la probabilidad de que los dos seleccionados 
sean quienes tienen habilidad en modelos lineales? 

b) ^.Cual es la probabilidad de que de los dos elegidos, 
uno tenga habilidad en modelos lineales y el otro en 
probabilidad aplicada? 

5.105 El fabricante de un triciclo para ninos ha recibi- 
do quejas por los frenos defectuosos en el producto. De 
acuerdo con el diseno del producto y bastantes pruebas 
preliminares, se determino que la probabilidad de que 
el tipo de defecto en la queja era 1 en 10,000 (es decir, 
.0001). Despues de una minuciosa investigation de las 
quejas, se determino que durante cierto periodo se eli- 
gieran aleatoriamente 200 productos de la production, 
de los cuales 5 tuvieron defecto en los frenos. 

a) Comente sobre la reclamation “1 en 10,000” del fa- 
bricante. Utilice un argumento probabilfstico. Use la 
distribution binomial para sus calculos. 

b) Haga el trabajo utilizando la aproximacion de Pois- 
son. 


5.7 Nociones erroneas y riesgos potenciales; 
relacion con el material de otros capftulos 

Las distribuciones discretas estudiadas en este capftulo ocurren con mucha frecuen- 
cia en los escenarios de la ingenierfa y las ciencias biologica y ffsica, como, eviden- 
temente, lo sugieren los ejemplos y los ejercicios. En el caso de las distribuciones 
binomial y de Poisson, los planes de muestreo industrial y muchos de los criterios 
de ingenierfa se determinan con base en ambas distribuciones. Esto tambien es el 
caso para la distribution hipergeometrica. Mientras que las distribuciones binomial 
negativa y geometrica se utilizan en menor grado, tambien tienen aplicaciones. En 
especffico, una variable aleatoria binomial negativa puede verse como una mezcla de 
variables aleatorias gamma y de Poisson. (La distribution gamma se estudiara en el 
siguiente capftulo.) 

A pesar de la vasta utilidad que estas distribuciones tienen en aplicaciones de 
la vida real, pueden utilizarse de manera incorrecta, a menos que el cientffico sea 
prudente y tome las debidas precauciones. Desde luego, cualquier calculo de proba- 
bilidad para las distribuciones que se estudiaron en este capftulo se realiza bajo el 
supuesto de que se conoce el valor del paramatro. Las aplicaciones del mundo real a 
menudo resultan en un valor del parametro que “se desplaza” debido a factores que 
son diffciles de controlar en el proceso, o debido a las intervenciones en el proceso 
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que no se toman en cuenta. Por ejemplo, en el ejercicio de repaso 5.81 se utiliza 
“information historica”. No obstante, ^el proceso actual es el mismo que aquel en 
que se recabaron los datos historicos? El uso de la distribution de Poisson puede 
sufrir incluso mas por esta dificultad. Por ejemplo, considere el ejercicio de repaso 
5.84. Las preguntas de los incisos a), b) y c) se basan en el uso de p = 2.7 llamadas 
por minuto. Con base en los registros historicos, este es el numero de llamadas que 
se realizan “en promedio” . Pero en esta y muchas otras aplicaciones de la distribu- 
tion de Poisson, hay “tiempos de baja actividad” y “tiempos ocupados”, de manera 
que se espera que haya momentos en que las condiciones para el proceso de Poisson 
quiza parezcan cumplirse, cuando en realidad no se cumplen. Asi, los calculos de 
probabilidades pueden ser incorrectos. En el caso de la binomial la suposicion que 
podria fallar en ciertas aplicaciones (ademas de la falta de constancia de p) es la 
suposicion de independencia, estipulando que los experimentos de Bernoulli deben 
ser independientes. 

Una de las aplicaciones incorrectas mas celebres de la distribution binomial ocu- 
rrio en la temporada de beisbol de 1961, cuando Mickey Mantle y Roger Maris se 
enfrascaron en una batalla amistosa por romper el record de todos los tiempos Babe 
Ruth de 60 home-runs. En el articulo de una revista famosa se hizo una prediction 
con base en la teoria de la probabilidad y se predijo que Mantle romperia el record 
de acuerdo con un calculo de una probabilidad mayor con el uso de la distribution 
binomial. El error clasico cometido fue la election de las estimaciones del parametro 
p (uno para cada jugador) con base en la frecuencia historica relativa de home-runs 
a lo largo de sus carreras. Maris, a diferencia de Mantle, no habia sido un jonronero 
prodigio antes de 1961, de manera que su “estimado” de p fue bastante bajo. Como 
resultado, la probabilidad calculada para romper el record fue bastante alta para 
Mantle y baja para Maris. El resultado final: Mantle fracaso al intentar romper el 
record y Maris si lo logro. 



Capftulo 6 

Algunas distribuciones continuas 
de probabilidad 


6.1 Distribution uniforme continua 

En estadfstica una de las distribuciones continuas mas simples es la distribucion 
uniforme continua. Esta distribucion se caracteriza por una funcion de densidad 
que es “plana” y, por ello, la probabilidad es uniforme en un intervalo cerrado, diga- 
mos [A, B] . Aunque las aplicaciones de la distribucion uniforme continua no son tan 
abundantes como lo son para otras distribuciones que se presentan en este capftulo, 
resulta apropiado para el principiante comenzar esta introduction a las distribucio- 
nes continuas con la distribucion uniforme. 


Distribucion 

uniforme 


La funcion de densidad de la variable aleatoria uniforme continua X en el inter- 
valo [ A , B } es 


f{x;A, B) 


f Bh 4 > A < x < B, 

I 0, en cualquier otro caso. 


Se debe destacar al lector que la funcion de densidad forma un rectangulo con base 
B — A y altura constante B \ 4 . Como resultado, la distribucion uniforme a me- 
nudo se llama distribucion rectangular. En la figura 6.1 se muestra la funcion de 
densidad para una variable aleatoria uniforme en el intervalo [1, 3]. 

Resulta sencillo calcular las probabilidades para la distribucion uniforme debido 
a la naturaleza simple de la funcion de densidad. Sin embargo, note que la aplicacion 
de esta distribucion se basa en la suposicion de que es constante la probabilidad de 
caer en un intervalo de longitud fija dentro de [A, B\. 


Ejemplo 6.1:1 Suponga que una sala de conferencias grande se puede reservar para cierta companfa 
por no mas de cuatro horas. Sin embargo, el uso de la sala de conferencias es tal que 
muy a menudo tienen conferencias largas y cortas. De hecho, se puede suponer que la 
duration X de una conferencia tiene una distribucion uniforme en el intervalo [0, 4]. 

a) ^Cual es la funcion de densidad de la probabilidad? 
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f(x) 


1 

2 


0 1 


3 


x 


Figura 6.1: Funcion de densidad para una variable aleatoria en el intervalo [1, 3]. 


b) ^Cual es la probabilidad de que cualquier conferencia dada dure al menos 3 
horas? 

Solucion: a) La funcion de densidad apropiada para la variable aleatoria distribuida unifor- 
me mente X en esta situation es 

0 < x < 4, 

en cualquier otro caso. 



b) P[X > 3] = / 3 4 \dx=\. 


J 


Teorema 6.1: 


La media y la varianza de la distribution uniforme son 


p = 


A + B 


a 2 = 


( B-A ) 2 
12 


Las demostraciones de los teoremas se dejan al lector. Vease el ejercicio 6.20 de la 
pagina 187. 


6.2 Distribucion normal 

La distribucion continua de probabilidad mas importante en todo el campo de la es- 
tadistica es la distribucion normal. Su grafica, que se denomina curva normal, 
es la curva con forma de campana de la figura 6.2, la cual describe aproximadamente 
muchos fenomenos que ocurren en la naturaleza, la industria y la investigation. Las 
mediciones ffsicas en areas como los experimentos meteorologicos, estudios de lluvia 
y mediciones de partes fabricadas a menudo se explican mas que adecuadamente con 
una distribucion normal. Ademas, los errores en las mediciones cientfficas se aproxi- 
man extremadamente bien mediante una distribucion normal. En 1733, Abraham 
DeMoivre desarrollo la ecuacion matematica de la curva normal. Esta ofrece una 
base sobre la que se fundamenta gran parte de la teorfa de la estadfstica inductiva. 
La distribucion normal a menudo se denomina distribucion gaussiana, en honor 
de Karl Friedrich Gauss (1777-1855), quien tambien derivo su ecuacion a partir de 
un estudio de errores en mediciones repetidas de la misma cantidad. 
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Distribution 

normal 



Figura 6.2: La curva normal. 


Una variable aleatoria continua X que tiene la distribution con forma de campa- 
na de la figura 6.2 se denomina variable aleatoria normal. La ecuacion matema- 
tica para la distribution de probabilidad de la variable normal depende de los dos 
parametros /z y cr, su media y su desviacion estandar. De aquf, denotamos los valores 
de la clensidad de X con n(x\ n, cr). 


La densidad de la variable aleatoria normal X, con media fi y varianza cr 1 2 , es 

/ \ 1 

n(x; /z, cr) = — e y ^ , oo < x < oo, 

\/27rcr 

donde 7T = 3.14159 . . . , y e = 2.71828 .... 


Una vez que se especifican /z y cr, la curva normal queda cleterminada por completo. 
Por ejemplo, si /z = 50 y cr = 5, entonces se pueden calcular las ordenadas n( x; 50, 
5) para diferentes valores de x y dibujar la curva. En la figura 6.3 dibujamos dos 
curvas normales que tienen la misma desviacion estandar pero diferentes medias. 
Las dos curvas son identicas en forma; pero estan centradas en diferentes posiciones 
a lo largo del eje horizontal. 

En la figura 6.4 trazamos dos curvas normales con la misma media pero con 
diferentes desviaciones estandar. Esta vez observamos que las dos curvas estan cen- 
tradas exactamente en la misma position sobre el eje horizontal; pero la curva con 
la mayor desviacion estandar es mas baja y se extiende mas lejos. Recuerde que el 
area bajo una curva de probabilidad clebe ser igual a 1 y, por lo tanto, cuanto mas 
variable sea el conjunto de observaciones mas baja y mas ancha sera la curva corres- 
pondiente. 

La figura 6.5 muestra el resultado de trazar dos curvas normales que tienen di- 
ferentes medias y diferentes desviaciones estandar. Evidentemente, estan centradas 
en posiciones diferentes sobre el eje horizontal y sus formas reflejan los dos valores 
diferentes de cr. 

De una inspection de las hguras 6.2 a 6.5, y al examinar la primera y la segunda 
derivadas de n (x; /z, cr), listamos las siguientes propiedades de la curva normal: 

1. La moda, que es el punto sobre el eje horizontal donde la curva es un maximo, 

ocurre en x = /z. 
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Figura 6.3: Curvas normales con pi < p 2 y &i = er 2 . 


o-i 



Mi = M 2 


Figura 6.4: Curvas normales con Mi = M 2 y 0 i < & 2 - 



Figura 6.5: Curvas normales con Mi < M 2 y 0 i < 02 - 
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2. La curva es simetrica alrededor de un eje vertical a traves cle la media /. i . 

3. La curva tiene sus puntos de inflexion en x = /.t ± cr, es concava hacia abajo si 
fj, — a < X < /r + a, yes concava hacia arriba en cualquier otro caso. 

4. La curva normal se aproxima al eje horizontal de manera asintotica, conforme 
nos alejamos de la media en cualquier direction. 

5. El area total bajo la curva y sobre el eje horizontal es igual a 1. 


Mostraremos ahora que los parametros /.t y a 2 son realmente la media y la va- 
rianza de la distribution normal. Para evaluar la media, escribimos 

1 f'°° 

E(X) = —=^ / xe-ifc-riM 2 dx. 

s/2^o 7-00 

Al hacer z — (x — fi)/cr y dx = a dz, obtenemos 

1 t°° z 2 

E ( x ) = —r = / (n + (Tz)e~^ dz 

V J — (X) 

i ^zi , cr r°° _z i T 

= a . — / e 2 dz H == / ze 2 dz. 

\J2tX 7-oo V27T 7-oo 

El primer termino de la derecha es [i veces el area bajo una curva normal con media 
cero y varianza 1 y, por ello, igual a fi. Por integration directa, el segundo termino 
es igual a 0. De aquf que 

E{X) = ir. 

La varianza de la distribution normal esta dada por 


1 f‘°° 

E[(X - n) 2 } = / (x - dx. 

v27T(J J — oo 

Nuevamente, al hacer z = (x — n)/cr y dx = a dz , obtenemos 

n 2 r oo 


\/2n . 


z 2 e ' 2 dz. 


Al integrar por partes con u = z y dv = ze~ z2 / 2 dz; de manera que dit = dz y v = 
-e _z / 2 , encontramos que 


r e ~* 2 / 2 dz) 
J — OO J 


! (0 + l) 


Muchas variables aleatorias tienen distribuciones de probabilidad que pueden cles- 
cribirse de forma adecuada mediante la curva normal, una vez que se especifiquen 
/i y cr 2 . En este capftulo supondremos que se conocen estos clos parametros, quizas 
a partir de investigaciones anteriores. Mas tarde haremos inferencias estadfsti- 
cas cuando se clesconozcan /i y a 2 y se estimen a partir de los datos experimentales 
disponibles. 

En un principio senalamos el papel que juega la distribucion normal como una 
aproximacion razonable de variables cientfficas en experimentos de la vida real. Hay 
otras aplicaciones de la distribucion normal que el lector apreciara conforme avance 
en el estudio de este libro. La distribucion normal tiene una gran aplicacion como 
distribucion limitante. Bajo ciertas condiciones, la distribucion normal ofrece una 
buena aproximacion continua a las distribuciones binomial e hipergeometrica. El 
caso de la aproximacion a la binomial se examina en la section 6.5. En el capftulo 8 
el lector aprendera acerca de las distribuciones muestrales. Resulta que la distri- 



176 


Capitulo 6 Algunas distribuciones continuas de probabilidad 


bucion limitante de promedios muestrales es normal, lo cual brinda una base amplia 
para la inferencia estadfstica, que es muy valiosa para el analista de datos interesado 
en la estimation y la prueba de hipotesis. Las importantes areas del analisis de va- 
rianza (capftulos 13, 14 y 15) y del control de calidad (capitulo 17) tienen su teoria 
basada en suposiciones que utilizan la distribucion normal. 

En mucho de lo que sigue en la seccion 6.3, se ofrecen ejemplos para demostrar el 
uso de las tablas de la distribucion normal. En la seccion 6.4 continuan los ejemplos 
de aplicaciones de la distribucion normal. 


* 

6.3 Areas bajo la curva normal 

La curva de cualquier distribucion continua de probabilidad o funcion de densidad se 
construye de manera que el area bajo la curva limitada por las dos ordenadas x = x\ 
y x = X2 sea igual a la probabilidad de que la variable aleatoria X tome un valor 
entre x = x\ y x = X2- Asf, para la curva normal de la figura 6.6, 

P(x i < X < X2) = / n(x;p,cr)dx = / dx, 

Jx 1 v27rcj Jx 1 

esta representada por el area de la region sombreada. 



Figura 6.6: P(x 1 < X < X 2 ) = area de la region sombreada. 


En las figuras 6.3, 6.4 y 6.5 vimos como la curva normal depende de la media y 
de la desviacion estandar de la distribucion bajo investigacion. El area bajo la curva 
entre cualesquiera dos ordenadas tambien clebe clepender de los valores p y a. Esto 
es evidente en la figura 6.7, donde sombreamos las regiones que corresponden a P(x\ 
< X < X 2 ) para dos curvas con medias y varianzas diferentes. La P(x\ < X < xq), 
donde X es la variable aleatoria que describe la distribucion A, se indica por el area 
sombreada mas oscura. Si X es la variable aleatoria que describe la distribucion B , 
entonces P{x\ < X < X 2 ) esta dada por toda la region sombreada. Evidentemente, 
las dos regiones sombreadas tienen tamanos diferentes; por lo tanto, la probabilidad 
que se asocia con cada distribucion sera diferente para los dos valores dados de X. 

La dificultad que se encuentra al resolver las integrales de funciones de densidad 
normal necesita de la tabulation de las areas de la curva normal para una referencia 
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B 



Figura 6.7: P{x i < X < x-i ) para diferentes curvas normales. 


rapida. Sin embargo, serfa una tarea desesparada intentar establecer tablas sepa- 
radas para cada valor concebible de /i y er. Afortunadamente, somos capaces de 
transformar todas las observaciones de cualquier variable aleatoria normal X a un 
nuevo conjunto de observaciones de una variable aleatoria normal Z con media 0 y 
varianza 1. Esto se puede realizar mediante la transformation 


Z=*^. 

a 

Siempre que X tome un valor x, el valor correspondiente de Z esta dado por 
z = (x — n)/cr. Por lo tanto, si X cae entre los valores x = Xi y x = X 2 , la variable 
aleatoria Z caera entre los valores correspondientes z\ = (x\ — /x)/ a y Z 2 = (X 2 — 
En consecuencia, podemos escribir 


P(x i < X < X 2 ) 


1 




1 


yfa*J Xl V2 nj z 

r z 2 

/ n{z ; 0, 1) dz = P{z\ < Z < Z2), 
Jz 1 


-I z 2 , 

z 2 dz 


donde Z se ve como una variable aleatoria normal con media 0 y varianza 1. 


Definition 6.1: 


La distribution de una variable aleatoria normal con media 0 y varianza 1 se llama 

distribution normal estandar. 


Las distributions original y transformada se ilustran en la figura 6.8. Como 
todos los valores de X caen entre X\ y X2 tienen valores z correspondientes entre Z\ 
y Z2, el area bajo la curva X entre las ordenadas x = X\ y x = X2 de la figura 6.8 es 
igual al area bajo la curva Z entre las ordenadas transformadas z = z\ y 2 = Z2- 
Ahora hemos reducido el numero requerido de tablas de areas de curva normal 
a una, la de la distribution normal estandar. La tabla A. 3 indica el area bajo la 
curva normal estandar que corresponde a P(Z < z) para valores de z que van de 
—3.49 a 3.49. Para ilustrar el uso de esta tabla, encontremos la probabilidad de que 
Z sea menor que 1.74. Primero, localizamos un valor de z igual a 1.7 en la columna 
izquierda, despues nos movemos a lo largo del renglon a la columna bajo 0.04, donde 
leemos 0.9591. Por lo tanto, P(Z < 1.74) = 0.9591. Para encontrar un valor 2 que 
corresponda a una probabilidad dada, se invierte el proceso. Por ejemplo, el valor 2 
que deja un area de 0.2148 bajo la curva a la izquierda de 2 se observa que es —0.79. 
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Ejemplo 6.2: 


Solucion: 



Figura 6.8: Distribuciones normales original y transformada. 


Dada una distribution normal estandar, encuentre el area bajo la curva que yace 

a) a la derecha de 2 = 1.84 y 

b) entre z = —1.97 y z = 0.86. 




Figura 6.9: Areas para el ejemplo 6.2. 


a) El area en la figura 6.9a) a la derecha d e z = 1.84 es igual a 1 menos el area en 
la tabla A. 3 a la izquierda de z = 1.84; a saber, 1 — 0.9671 = 0.0329. 

b) El area en la figura 6.96) entre 2 = —1.97 y z = 0.86 es igual al area a la iz- 
quierda de z = 0.86 menos el area a la izquierda de z = —1.97. De la tabla A. 3 
encontramos que el area que se desea es 0.8051 — 0.0244 = 0.7807. 
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Ejemplo 6.3:1 Dada una distribution normal estandar, encuentre el valor de k tal que 

a) P{Z >k) = 0.3015 y 

b) P{k< Z < -0.18) = 0.4197. 




Figura 6.10: Areas para el ejemplo 6.3. 


Solucion: a) En la figura 6.10a) vemos que el valor k que deja un area de 0.3015 a la derecha 
debe dejar entonces un area de 0.6985 a la izquierda. De la tabla A. 3 se sigue 
que k = 0.52. 

b) De la tabla A. 3 notamos que el area total a la izquierda de —0.18 es igual a 
0.4286. En la figura 6. 106) vemos que el area entre k y —0.18 es 0.4197, de ma- 
nera que el area a la izquierda de k debe ser 0.4286 — 0.4197 = 0.0089. Por lo 
tanto, de la tabla A. 3, tenemos k = —2.37. 


Ejemplo 6.4:1 
Solucion: 


Dada una variable aleatoria X que tiene una distribucion normal con /i 
encuentre la probabilidad de que X tome un valor entre 45 y 62. 

Los valores z que corresponden a x\ = 45 y X 2 = 62 son 


50 y <7 = 10, 


z\ 


45 - 50 
10 


-0.5, 


y 


22 


62 - 50 
10 


1 . 2 . 


Por lo tanto, 


P(45 < X < 62) = P(— 0.5 < Z < 1.2). 


La P(— 0.5 < Z < 1.2) se muestra por el area de la region sombreada de la figu- 
ra 6.11. Esta area se puede encontrar al restar el area a la izquierda de la orclenada 
z = —0.5 de toda el area a la izquierda de z = 1.2. Usando la tabla A. 3, tenemos 


P(45 < X < 62) = P(— 0.5 < Z < 1.2) = P(Z < 1.2) - P(Z < -0.5) 
= 0.8849 - 0.3085 = 0.5764. 


J 


Ejemplo 6.5:1 Dado que X tiene una distribucion normal con fi = 300 y a = 50, encuentre la pro- 
babilidad de que X tome un valor mayor que 362. 
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Figura 6.11: Area para el ejemplo 6.4. 


a = 50 


\ 

\ 



300 362 

Figura 6.12: Area para el ejemplo 6.5. 


Solucion: La distribution de probabilidad normal que muestra el area que se desea se representa 
en la figura 6.12. Para encontrar la P(X > 362), necesitamos evaluar el area bajo la 
curva normal a la derecha de x = 362. Esto se puede realizar al transformar x = 362 
al valor z correspondiente, al obtener el area a la izquierda de z de la tabla A. 3 y 
despues restar esta area de 1. Encontramos que 


z = 


362 - 300 
50 


1.24. 


De aquf, 

P(X > 362) = P(Z > 1.24) = 1 - P(Z < 1.24) = 1 - 0.8925 = 0.1075. 

De acuerdo con el teorema de Chebyshev, la probabilidad de que una variable 
aleatoria tome un valor dentro de 2 desviaciones estandar de la media es al menos 
3/4. Si la variable aleatoria tiene una distribution normal, los valores 2 que corres- 
ponden a x\ = p — 2a y X 2 = p + 2cr se calculan facilmente y son 

(p - 2a) - p 0 (p + 2a) - p o 

z i — — —z, y z 2 — — /. 

a a 


De aquf, 

P(p - 2a < X < p + 2a) = P(- 2 < Z < 2) = P(Z < 2) - P(Z < -2) 

= 0.9772 - 0.0228 = 0.9544, 
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que es una afirmacion mucho mas fuerte que la que se establece mediante el teorema 
de Chebyshev. 

Uso de la curva normal a la inversa 

En ocasiones se nos pide encontrar el valor de z que corresponde a una probabilidad 
especffica que cae entre los valores que se listan en la tabla A. 3 (vease el ejemplo 
6.6). Por conveniencia, siempre elegiremos el valor 2 que corresponde a la probabili- 
dad tabular que esta mas cerca de la probabilidad que se especifica. 

Los dos ejemplos anteriores se resolvieron al ir primero de un valor de a; a un 
valor 2 y despues calcular el area que se desea. En el ejemplo 6.6 invertimos el pro- 
ceso y comenzamos con un area o probabilidad conocida, encontramos el valor 2 y 
despues determinamos x reacomodando la formula 

x — u 

z = para obtener x = oz + [ 1 . 


Ejemplo 6.6:1 Dada una distribution normal con /1 = 40 y er = 6, encuentre el valor de x que tiene 

a) 45% del area a la izquierda y 

b) 14% del area a la derecha. 




Figura 6.13: Areas para el ejemplo 6.6. 


Solucion: a) En la figura 6.13a) se sombrea un area de 0.45 a la izquierda del valor x que 
se desea. Requerimos un valor 2 que deje un area de 0.45 a la izquierda. De la 
tabla A. 3 encontramos P(Z < —0.13) = 0.45, por lo que el valor 2 que se desea 
es —0.13. De aqui, 


x = (6)(— 0.13) + 40 = 39.22. 

b ) En la figura 6.13&) sombreamos un area igual a 0.14 a la derecha del valor x que 
se clesea. Esta vez requerimos un valor 2 que deje 0.14 del area a la derecha y, 
por ello, un area de 0.86 a la izquierda. De nuevo, de la tabla A. 3, encontramos 
P(Z < 1.08) = 0.86, por lo que el valor 2 que se desea es 1.08 y 


x = (6)(1.08) + 40 = 46.48. 


J 
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6.4 Aplicaciones de la distribution normal 

Algunos de los muchos problemas para los que es aplicable la distribution normal se 
tratan en los siguientes ejemplos. El uso de la curva normal para aproximar proba- 
bilidades binomiales se considera en la section 6.5. 


Ejemplo 6.7:1 Cierto tipo de bateria de almacenamiento dura, en promedio, 3.0 aiios, con una 
desviacion estandar de 0.5 aiios. Suponiendo que las duraciones de la bateria se 
distribuyen normalmente, encuentre la probabilidad de que una bateria dada dure 
menos de 2.3 aiios. 

Solucion: Primero construya un diagrama como el de la figura 6.14, que muestra la distribu- 
tion dada de duraciones de las baterias y el area que se desea. Para encontrar la 
P(X < 2.3), necesitamos evaluar el area bajo la curva normal a la izquierda de 2.3. 
Esto se logra al encontrar el area a la izquierda del valor 2 correspondiente. De aqui 
encontramos que 


2 = 


2.3 - 3 
0.5 


-1.4, 


y entonces con la tabla A. 3 tenemos 

P(X < 2.3) = P(Z < -1.4) = 0.0808. 




Figura 6.14: Area para el ejemplo 6.7. 


Figura 6.15: Area para el ejemplo 6.8. 


Ejemplo 6.8:1 Una empresa de material electrico fabrica bombillas de luz que tienen una duration, 
antes de quemarse (fundirse) , que se distribuye normalmente con media igual a 800 
horas y una desviacion estandar de 40 horas. Encuentre la probabilidad de que una 
bombilla se queme entre 778 y 834 horas. 

Solucion: La distribution de las bombillas se ilustra en la figura 6.15. Los valores 2 que corres- 
ponden an = 778 y X 2 = 834 son 


Zl 


778 - 800 
40 


-0.55, 


y Z2 


834 - 800 
40 


0.85. 


De aqui, 


P{ 778 < X < 834) = P(— 0.55 < Z < 0.85) = P(Z < 0.85) - P(Z < -0.55) 
= 0.8023 - 0.2912 = 0.5111. 


Ejemplo 6.9:1 En un proceso industrial el diametro de un cojinete de bolas es una parte componen- 
te importante. El comprador establece que las especificaciones en el diametro sean 
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3.0 ± 0.01 cm. La implication es que no se aceptara ninguna parte que quede fuera 
de estas especificaciones. Se sabe que en el proceso el diametro de un cojinete tiene 
una distribucion normal con media 3.0 y desviacion estandar o = 0.005. En prome- 
dio, ^cuantos cojinetes fabricados se descartaran? 

Solucion: La distribucion de diametros se ilustra en la figura 6.16. Los valores que corresponden 
a los lfmites especificados son x\ = 2.99 y X 2 = 3.01. Los valores z correspondientes 
son 


zi 


2.99-3.0 

0.005 


- 2 . 0 , 


y 


•22 


3.01-3.0 

0.005 


+ 2 . 0 . 


De aqui, 


P(2.99 < X < 3.01) = P(— 2.0 < Z < 2.0). 

De la tabla A. 3, P(Z < —2.0) = 0.0228. Debido a la simetrfa de la distribucion nor- 
mal, encontramos que 

P(Z < -2.0) + P(Z > 2.0) = 2(0.0228) = 0.0456. 

Como resultado se anticipa que, en promedio, se descartaran 4.56% de los cojinetes 
fabricados. 


0.0228 


< 7 = 0.005 


0.0228 


0.025 


(7 — 0.2 


0.025 


2.99 3.0 3.01 

Figura 6.16: Area para el ejemplo 6.9. 


1.108 1.500 1.892 

Figura 6.17: Especificaciones para el ejemplo 6.10. 


Ejemplo 6.10:1 Se utilizan medidores para rechazar todos los componentes donde cierta dimension 
no este clentro de la especificacion 1.50 ± d. Se sabe que esta medicion se distribuye 
normalmente con media 1.50 y desviacion estandar 0.2. Determine el valor d tal que 
las especificaciones “cubran” 95% de las mediciones. 

Solucion: De la tabla A. 3 sabemos que 

P(— 1.96 < Z < 1.96) = 0.95. 


Por lo tanto, 


1.96 


(1.50 + d) - 1.50 
02 


de la que obtenemos 


d = (0.2)(1.96) = 0.392. 

Una ilustracion de las especificaciones se muestra en la figura 6.17. 


J 
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Ejemplo 6.11:1 Cierta maquina fabrica resistencias electricas que tienen una resistencia media de 
40 ohms y una desviacion estandar de 2 ohms. Suponiendo que la resistencia sigue 
una distribution normal y se puede medir con cualquier grado de precision, ^que 
porcentaje de resistencias tendran una resistencia que exceda 43 ohms? 

Solucion: Se encuentra un porcentaje al multiplicar la frecuencia relativa por 100%. Como la 
frecuencia relativa para un intervalo es igual a la probabilidad de caer en el inter- 
valo, debemos encontrar el area a la derecha de x = 43 en la figura 6.18. Esto se 
realiza al transformar x = 43 al valor z correspondiente, con lo cual se obtiene el 
area a la izquierda de z de la tabla A. 3, y despues se resta esta area de 1. Encon- 
tramos que 


z = 


43 - 40 
2 


= 1.5. 


Por lo tanto, 

P(X > 43) = P{Z > 1.5) = 1 - P(Z < 1.5) = 1 - 0.9332 = 0.0668. 
Asf, 6.68% de las resistencias tendran una resistencia que exceda 43 ohms. 


< 7 = 2.0 




40 


43 


Figura 6.18: Area para el ejemplo 6.11. 


cr= 2.0 




40 


43.5 


Figura 6.19: Area para el ejemplo 6.12. 


Ejemplo 6.12:1 Encuentre el porcentaje de resistencias que excedan 43 ohms para el ejemplo 6.11 si 
la resistencia se mide al ohm mas cercano. 

Solucion: Este problema difiere del ejemplo 6.11, pues ahora asignamos una medida de 43 ohms 
a todas las resistencias cuyas resistencias sean mayores que 42.5 y menores que 43.5. 
Realmente aproximamos una distribution discreta por medio de una distribution 
continua normal. El area que se requiere es la region sombreada a la derecha de 43.5 
en la figura 6.19. Encontramos ahora que 


43.5 - 40 


1.75. 


De aquf, 

P{X > 43.5) = P{Z > 1.75) = 1 - P{Z < 1.75) = 1 - 0.9599 = 0.0401. 

Por lo tanto, 4.01% de las resistencias exceden 43 ohms cuando se miden al ohm mas 
cercano. La diferencia 6.68% — 4.01% = 2.67% entre esta respuesta y la del ejemplo 
6.11 representa todas las resistencias que tienen una resistencia mayor que 43 y me- 
nor que 43.5, que ahora se registran como de 43 ohms. 
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Ejemplo 6.13:1 La calificacion promedio para un examen es 74 y la desviacion estandar es 7. Si 12% 
de la clase obtiene A y las calificaciones siguen una curva que tiene una distribucion 
normal, ^cual es la A mas baja posible y la B mas alta posible? 

Solucion: En este ejemplo comenzamos con un area de probabilidad conocida, encontramos el 
valor 2 y despues determinamos x de la formula x = az + /r. Un area de 0.12, que 
corresponde a la fraccion de estudiantes que reciben A, se sombrea en la figura, 6.20. 
Requerimos un valor z que deje 0.12 del area a la derecha y, por ello, un area de 
0.88 a la izquierda. De la tabla A. 3, P(Z < 1.18) tiene el valor mas cercano a 0.88, 
de manera que el valor z que se clesea es 1.18. De aquf, 

x = (7)(1.18) + 74 = 82.26. 

Por lo tanto, la A mas baja es 83 y la B mas alta es 82. 


a = 

/ 1 

= 7 


\ 


\ 


\ 


\ 

— ^ 

0.12 

74 



Figura 6.20: Area para el ejemplo 6.13. 


Figura 6.21: Area para el ejemplo 6.14. 


Ejemplo 6.14:1 Refierase al ejemplo 6.13 y encuentre el sexto decil. 

Solucion: El sexto decil, escrito como D 6 , es el valor x que deja 60% del area a la izquierda, 
como se muestra en la figura 6.21. De la tabla A. 3 encontramos P(Z < 0.25) « 0.6, 
de manera que el valor 2 que se clesea es 0.25. Ahora, x = (7) (0.25) + 74 = 75.75. 
De aquf, D e = 75.75. Es decir, 60% de las calificaciones son de 75 o menos. 


Ej ercicios 

6.1 Dada una distribucion normal estandar, encuen- 
tre el area bajo la curva que esta 

a) a la izquierda de z = 1.43; 

b) a la derecha de z = —0.89; 

c) entre z = —2.16 y z = —0.65; 

d) a la izquierda de 2 = —1.39; 

e) a la derecha de 2 = 1.96; 

/) entre 2 = —0.48 y 2 = 1.74. 

6.2 Encuentre el valor de 2 si el area bajo una curva 
normal estandar 

a) a la derecha de 2 es 0.3622; 

b) a la izquierda de 2 es 0.1131; 


c) entre 0 y 2 , con 2 > 0, es 0.4838; 

d) entre —2 y 2 , con 2 > 0, es 0.9500. 

6.3 Dada una distribucion normal estandar, encuen- 
tre el valor de k tal que 

a) P(Z < k) = 0.0427; 

b ) P(Z > k) = 0.2946; 

c) P(— 0.93 < Z <k) = 0.7235. 

6.4 Dada una distribucion normal con /x = 30 y a = 6, 
encuentre 

a) el area de la curva normal a la derecha de x = 17; 

b) el area de la curva normal a la izquierda de x = 22; 
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c) el area de la curva normal entre x = 32 y x = 41; 

d) el valor de x que tiene 80% del area de la curva 
normal a la izquierda; 

e) los dos valores de x que contienen el 75% central del 
area de la curva normal. 

6.5 Dada la variable X normalmente distribuida con 
media 18 y desviacion estandar 2.5, encuentre 

a) P(X < 15); 

b) el valor de k tal que P(X < k) = 0.2236; 

c) el valor de k tal que P(X > k ) = 0.1814; 

d ) P(17 < X < 21). 

6.6 De acuerdo con el teorema de Chebyshev, la pro- 
babilidad de que cualquier variable aleatoria tome un 
valor dentro de tres desviaciones estandar de la me- 
dia es al menos 8/9. Si se sabe que la distribution de 
probabilidad de una variable aleatoria X es normal 
con media p y varianza a 2 , ^cual es el valor exacto de 
P( p — 3cr < X < p + 3 ct)? 

6.7 Un investigador cientffico informa que unos rato- 
nes viviran un promedio de 40 meses cuando sus dietas 
se restringen drasticamente y despues se enriquecen 
con vitaminas y protefnas. Suponiendo que la vidas 
de tales ratones se distribuyen normalmente con una 
desviacion estandar de 6.3 meses, encuentre la proba- 
bilidad de que un raton dado vivira 

a) mas de 32 meses; 

b) menos de 28 meses; 

c) entre 37 y 49 meses. 

6.8 Las barras de pan de centeno que cierta panade- 
rfa distribuye a las tiendas locales tienen una longitud 
promedio de 30 centi'metros y una desviacion estandar 
de 2 centi'metros. Suponiendo que las longitudes estan 
distribuidas normalmente, 7 que porcentaje de las ba- 
rras son 

а) mas largas que 31.7 centi'metros? 

б) de entre 29.3 y 33.5 centi'metros de longitud? 
c) mas cortas que 25.5 centi'metros? 

6.9 Una maquina expendedora de bebidas gaseosas se 
regula para que sirva un promedio de 200 mililitros por 
vaso. Si la cantidad de bebida se distribuye normalmen- 
te con una desviacion estandar igual a 15 mililitros, 

a) ique fraction de los vasos contendra mas de 224 
mililitros? 

b) serial es la probabilidad de que un vaso contenga 
entre 191 y 209 mililitros? 

c) ^cuantos vasos probablemente se derramaran si se 
utilizan vasos de 230 mililitros para las siguientes 
1000 bebidas? 


d) 7 por debajo de que valor obtendremos el 25% mas 
pequeno de las bebidas? 

6.10 El diametro interior del anillo de un piston ter- 
minado se distribuye normalmente con una media de 
10 centi'metros y una desviacion estandar de 0.03 cen- 
tfmetros. 

a) ^Que proportion de anillos tendran diametros in- 
teriores que excedan 10.075 centi'metros? 

b) ^Cual es la probabilidad de que el anillo de un pis- 
ton tenga un diametro interior entre 9.97 y 10.03 
centi'metros? 

c) i,Por debajo de que valor del diametro interior caera 
15% de los anillos de piston? 

6.11 Un abogado viaja todos los di'as de su casa en 
los suburbios a su oficina en el centro de la ciudad. 
El tiempo promedio para un viaje solo de ida es 24 
minutos, con una desviacion estandar de 3.8 minutos. 
Suponga que la distribution de los tiempos de viaje 
esta distribuida normalmente. 

a) ^Cual es la probabilidad de que un viaje tome al 
menos 1/2 hora? 

b) Si la oficina abre a las 9:00 a.m. y el sale diario de 
su casa a las 8:45 a.m., 7 que porcentaje de las veces 
llegara tarde al trabajo? 

c) Si sale de su casa a las 8:35 a.m. y el cafe se sirve en 
la oficina de 8:50 a.m. a 9:00 a.m., cual es la proba- 
bilidad de que se pierda el cafe? 

d) Encuentre la longitud de tiempo por arriba de la 
cual encontramos el 15% de los viajes mas lentos. 

e) Encuentre la probabilidad de que 2 de los siguientes 
3 viajes tomen al menos 1/2 hora. 

6.12 En el ejemplar de noviembre de 1990 de Chemi- 
cal Engineering Progress, un estudio analiza el porcen- 
taje de pureza del oxfgeno de cierto proveedor. Supon- 
ga que la media fue 99.61 con una desviacion estandar 
de 0.08. Suponga que la distribution del porcentaje de 
pureza fue aproximadamente normal. 

a) ^Que porcentaje de los valores de pureza esperarfa 
que estuvieran entre 99.5 y 99.7? 

b) ^Que valor de pureza esperarfa que excediera exac- 
tamente 5% de la poblacion? 

6.13 La vida promedio de cierto tipo de motor pe- 
queno es de 10 anos con una desviacion estandar de 
2 anos. El fabricante reemplaza gratis todos los mo- 
tores que fallen dentro del periodo de garantfa. Si el 
esta dispuesto a reemplazar solo 3% de los motores 
que fallan, ^cuanto tiempo de garantfa deberfa ofre- 
cer? Suponga que la duration de un motor sigue una 
distribution normal. 

6.14 Las alturas de 1000 estudiantes se distribuyen 
normalmente con una media de 174.5 centi'metros y 
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una desviacion estandar de 6.9 centfmetros. Suponien- 
do que las alturas se registran al medio centi'metro mas 
cercano, ^cuantos de estos estudiantes esperari'a que 
tuvieran alturas 

a) menores que 160.0 centfmetros? 

b) de entre 171.5 y 182.0 centfmetros inclusive? 

c) iguales a 175.0 centfmetros? 

d) mayores que o iguales a 188.0 centfmetros? 

6.15 Una companfa paga a sus empleados un salario 
promedio de $15.90 por hora con una desviacion estan- 
dar de $1.50. Si los salarios se distribuyen aproxima- 
damente de forma normal y se pagan al centavo mas 
cercano, 

a) ique porcentaje de los trabajadores reciben salarios 
entre $13.75 y $16.22 inclusive por bora? 

b) ^el 5% mas alto de los salarios por hora de los em- 
pleados es mayor a que cantidad? 

6.16 Los pesos de un numero grande de poodle (ca- 
niche) miniatura se distribuyen aproximadamente de 
forma normal con una media de 8 kilogramos y una 
desviacion estandar de 0.9 kilogramos. Si las medicio- 
nes se registran al decimo de kilogramo mas cercano, 
encuentre la fraction de estos poodle con pesos 

a) por arriba de 9.5 kilogramos; 

b) a lo mas 8.6 kilogramos; 

c) entre 7.3 y 9.1 kilogramos inclusive. 

6.17 La resistencia a la tension de cierto componen- 
te de metal se distribuye normalmente con una media 
de 10,000 kilogramos por centi'metro cuadrado y una des- 
viacion estandar de 100 kilogramos por centi'metro cua- 
drado. Las mediciones se registran a los 50 kilogramos 
por centi'metro cuadrado mas cercanos. 

a ) ^Que proportion de estos componentes excede 10,150 
kilogramos por centi'metro cuadrado de resistencia a 
la tension? 

b) Si las especificaciones requieren que todos los com- 
ponentes tengan resistencia a la tension entre 9800 


y 10,200 kilogramos por centi'metro cuadrado inclu- 
sive, ^que proportion de piezas esperari'a que se des- 
cartara? 

6.18 Si un conjunto de observaciones se distribuye 
de manera normal, i,que porcentaje de estas difieren de 
la media en 

a) mas de 1.3a? 

b) menos de 0.52a? 

6.19 Los ci de 600 aspirantes de cierta universidad 
se distribuyen aproximadamente de forma normal con 
una media de 115 y una desviacion estandar de 12. Si 
la universidad requiere un ci de al menos 95, ^cuantos 
de estos estudiantes seran rechazados sobre esta base 
sin importar sus otras calificaciones? 

6.20 Dada una distribution continua uniforme, de- 
mnestre que 

a) M = y 

b) a 2 = i^. 

6.21 La cantidad de cafe diaria, en litros, que sir- 
ve una maquina que se localiza en el vestfbulo de un 
aeropuerto es una variable aleatoria X que tiene una 
distribution continua uniforme con A = 7 y B = 16. 
Encuentre la probabilidad de que en un dfa dado la 
cantidad de cafe que sirve esta maquina sea 

a ) a lo mas 8.8 litros; 

b) mas de 7.4 litros, pero menos de 9.5 litros; 

c) al menos 8.5 litros. 

6.22 Un autobus llega cada 10 minutos a una parada. 
Se supone que el tiempo de espera para un individuo 
en particular es una variable aleatoria con distribution 
continua uniforme. 

a) ^Cual es la probabilidad de que el individuo espere 
mas de 7 minutos? 

b) ^,Cual es la probabilidad de que el individuo espe- 
re entre 2 y 7 minutos? 


6.5 Aproximacion normal a la binomial 

Las probabilidades asociadas con experimentos binomiales se obtienen facilmente 
a partir de la formula b(x; n, p) de la distribution binomial o de la tabla A.l cuan- 
do n es pequena. Ademas, las probabilidades binomiales estan facilmente disponi- 
bles en muchos paquetes de software. Sin embargo, resulta instructive aprender 
la relation entre la distribution binomial y la normal. En la section 5.6 ilustramos 
como la distribution de Poisson se puede utilizar para aproximar probabilidades 
binomiales cuando n es bastante grande y p esta muy cercana a 0 o a 1. Las dis- 
tribuciones binomial y de Poisson son ambas discretas. La primera aplicacion de 
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una distribution continua de probabilidad para aproximar probabilidades sobre 
un espacio muestral discreto se demuestra con el ejemplo 6.12, donde se utiliza la 
curva normal. La distribution normal a menudo es una buena aproximacion a una 
distribution cliscreta cuando la ultima adquiere una forma de campana simetrica. 
Desde un punto de vista teorico, algunas distribuciones convergen a la normal 
conforme sus parametros se aproximan a ciertos limites. La distribution normal es 
una distribution de aproximacion conveniente, ya que la funcion de distribution 
acumulada se tabula con mucha facilidad. La distribution binomial se aproxima 
bien por la normal en problemas practicos cuando se trabaja con la funcion de 
distribution acumulada. Establecemos ahora un teorema que nos permitira utilizar 
areas bajo la curva normal para aproximar propiedades binomiales cuando n es 
suficientemente grande. 


Teorema 6.2: 


Si X es una variable aleatoria binomial con media p = np y varianza cr = npq , 
entonces la forma limitante de la distribution de 

z = X - np 
yfnpq ’ 

conforme n — > oo, es la distribucion normal estandar n(z] 0, 1). 


Resulta que la distribucion normal con p = np y a 2 = np( 1 — p) no solo ofrece 
una aproximacion muy precisa a la distribucion binomial cuando n es grande y p 
no esta extremadamente cercana a 0 o a 1, sino que tambien brinda una aproxima- 
cion bastante buena aun cuando n sea pequena y p este razonablemente cercana a 

V2- 

Para ilustrar la aproximacion normal a la distribucion binomial, primero dibu- 
jamos el histograma para b(x; 15, 0.4) y despues superponemos la curva normal 
particular que tenga las mismas media y varianza que la variable binomial X. De 
aqui dibujamos una curva normal con 


p = np = (15) (0.4) = 6 y cr 2 = npq = (15) (0.4) (0.6) = 3.6. 


El histograma de b(x; 15, 0.4) y la curva normal superpuesta correspondiente, que esta 
determinada por completo por su media y su varianza, se ilustran en la figura 6.22. 



Figura 6.22: Aproximacion normal de b(x; 15, 0.4). 
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La probabilidad exacta de que la variable aleatoria binomial X tome un valor 
dado x es igual al area de la barra cuya base se centra en x. Por ejemplo, la pro- 
babilidad exacta de que X tome el valor 4 es igual al area del rectangulo con base 
centrada en x = 4. Con la tabla A.l, encontramos que esta area es 

P(X = 4) = 6(4; 15, 0.4) = 0.1268, 

que es aproximadamente igual al area de la region sombreada bajo la curva normal 
entre las clos ordenadas x\ = 3.5 y xi = 4.5 en la figura 6.23. Al convertir a valores 
2 , tenemos 


Zl 


3.5 - 6 
1.897 


-1.32 


y 


_ 4.5 - 6 
" 2 “ 1.897 


-0.79. 



9 

Figura 6.23: Aproximacion normal de b(x: 15, 0.4) y ^ b(x; 15, 0.4). 

x=7 

Si X es una variable aleatoria binomial y Z una variable normal estandar, entonces, 

P{X = 4) = 6(4; 15,0.4) ss P(-1.32 < Z < -0.79) 

= P(Z < -0.79) - P(Z < -1.32) = 0.2148 - 0.0934 = 0.1214. 

Esto coincidie bastante con el valor exacto de 0.1268. 

La aproximacion normal es mas util al calcular sumas binomiales para valores 
grandes de n. Con referencia a la figura 6.23, nos podemos interesar en la probabilidad 
de que X tome un valor de 7 a 9 inclusive. La probabilidad exacta esta dada por 

9 6 

P(7 < X <9) = b ( x > 15 > °- 4 ) - b ( x ’ 15 ’ °- 4 ) 

x=0 x=0 

= 0.9662 - 0.6098 = 0.3564, 

que es igual a la suma de las areas de los rectangulos cuyas bases estan centradas 
en x = 7, 8 y 9. Para la aproximacion normal encontramos el area de la region som- 
breada bajo la curva entre las ordenadas x\ = 6.5 y X 2 = 9.5 en la figura 6.23. Los 
valores 2 correspondientes son 


6.5 - 6 


0.26 


y ^2 


9.5 - 6 


1.85. 


zi = 


1.897 


1.897 
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Ahora, 

P( 7 < A < 9) « P(0.26 < Z < 1.85) = P(Z < 1.85) - P(Z < 0.26) 

= 0.9678 - 0.6026 = 0.3652. 

Una vez mas, la aproximacion de la curva normal ofrece un valor que coincide mu- 
cho con el valor exacto de 0.3564. El grado de precision, que depende de que tan 
bien se ajuste la curva al histograma, aumentara conforme n aumente. Esto es par- 
ticularmente cierto cuando p no esta muy cercana a 1/2 y el histograma ya no es 
simetrico. Las figuras 6.24 y 6.25 muestran los histogramas para b(x\ 6, 0.2) y b(x\ 
15, 0.2), respectivamente. Es evidente que una curva normal se ajustara considera- 
blemente mejor al histograma cuando n = 15 que cuando n = 6. 


0 1 2 3 4 5 6 

Figura 6.24: Histograma para b(x; 6, 0.2). 


0123456789 11 13 15 

Figura 6.25: Histograma para b(x; 15, 0.2). 


En nuestras ilustraciones de la aproximacion normal a la binomial, se hizo evi- 
dente que si buscamos el area bajo la curva normal hacia la izquierda de, digamos x, 
es mas preciso utilizar x + 0.5. Esto es una correccion para dar cabida al hecho de 
que una distribucion discreta se aproxima mediante una distribucion continua. La 
correccion +0.5 se llama correccion de continuidad. A partir de la explication 
anterior, clamos la siguiente aproximacion normal formal a la binomial. 


Aproximacion Sea X una variable aleatoria binomial con parametros n y p. Entonces, X tiene 
normal a la aproximadamente una distribucion normal con p = np y a 2 = npq = np( 1 — p) 
distribucion y 
normal 

X 

P(X < x) = ^ ~2b(k;n,p ) 

k = 0 


w area bajo la curva normal a la izquierda de x + 0.5 
x + 0.5 — np\ 

y/npq ) ' 

y la aproximacion sera buena si np y n(l — p) son may ores que o iguales a 5. 

Como indicamos antes, la calidad de la aproximacion es bastante buena para 
n grande. Si p es cercana a 1/2, un tarnano de la muestra moderado o pequeno 
sera suficiente para una aproximacion razonable. Ofrecemos la tabla 6.1 como una 


= P Z < 
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indication cle la calidad cle la aproximacion. Se dan tanto la aproximacion normal 
como las probabilidades binomiales acumuladas reales. Observe que en p = 0.05 y 
p = 0.10, la aproximacion es bastante gruesa para n = 10. Sin embargo, aun para 
n = 10, note la mejoria para p = 0.50. Por otro lado, cuando p es fija en p = 0.05, 
observe la mejoria de la aproximacion conforme vamos de = 20 a n = 100. 


Tabla 6.1: Aproximacion normal y probabilidades binomiales acumuladas reales 



p = 0.05, 

n= 10 

p = 0.10, n = 10 

p = 0.50, 

, n = 10 

r 

Binomial 

Normal 

Binomial 

Normal 

Binomial 

Normal 

0 

0.5987 

0.5000 

0.3487 

0.2981 

0.0010 

0.0022 

1 

0.9139 

0.9265 

0.7361 

0.7019 

0.0107 

0.0136 

2 

0.9885 

0.9981 

0.9298 

0.9429 

0.0547 

0.0571 

3 

0.9990 

1.0000 

0.9872 

0.9959 

0.1719 

0.1711 

4 

1.0000 

1.0000 

0.9984 

0.9999 

0.3770 

0.3745 

5 



1.0000 

1.0000 

0.6230 

0.6255 

6 





0.8281 

0.8289 

7 





0.9453 

0.9429 

8 





0.9893 

0.9864 

9 





0.9990 

0.9978 

10 





1.0000 

0.9997 




p = 

0.05 




n = 

20 

n - 

= 50 

n = 

100 

r 

Binomial 

Normal 

Binomial 

Normal 

Binomial 

Normal 

0 

0.3585 

0.3015 

0.0769 

0.0968 

0.0059 

0.0197 

1 

0.7358 

0.6985 

0.2794 

0.2578 

0.0371 

0.0537 

2 

0.9245 

0.9382 

0.5405 

0.5000 

0.1183 

0.1251 

3 

0.9841 

0.9948 

0.7604 

0.7422 

0.2578 

0.2451 

4 

0.9974 

0.9998 

0.8964 

0.9032 

0.4360 

0.4090 

5 

0.9997 

1.0000 

0.9622 

0.9744 

0.6160 

0.5910 

6 

1.0000 

1.0000 

0.9882 

0.9953 

0.7660 

0.7549 

7 



0.9968 

0.9994 

0.8720 

0.8749 

8 



0.9992 

0.9999 

0.9369 

0.9463 

9 



0.9998 

1.0000 

0.9718 

0.9803 

10 



1.0000 

1.0000 

0.9885 

0.9941 


Ejemplo 6.15:1 La probabilidad de que un paciente se recupere de una rara enfermedad de la sangre 
es 0.4. Si se sabe que 100 personas contrajeron esta enfermedad, icual es la proba- 
bilidad de que menos de 30 sobrevivan? 

Solucion: Representemos con la variable binomial X el mimero de pacientes que sobreviven. 

Como n = 100, deberfamos obtener resultados bastante precisos usando la aproxi- 
macion de la curva normal con 

p = np = (100) (0.4) = 40, 


y 


o = sjnpq = yj (100)(0.4)(0.6) = 4.899. 
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Para obtener la probabilidad que se desea, tenemos que encontrar el area a la iz- 
quierda de x = 29.5. El valor z que corresponde a 29.5 es 


29.5-40 

4.899 


-2.14, 


y la probabilidad de que menos de 30 de los 100 pacientes sobrevivan esta dada por 
la region sombreada en la figura 6.26. De aqut, 

P(X < 30) « P(Z < -2.14) = 0.0162. 



x 

-2.14 0 


x 


Figura 6.26: Area para el ejemplo 6.15. 


Figura 6.27: Area para el ejemplo 6.16. 



Ejemplo 6.16:1 Una prueba de option multiple tiene 200 preguntas, cada una de las cuales con 4 
respuestas posibles de las que solo 1 es la correcta. ^Cual es la probabilidad de que 
solamente adivinando se obtengan de 25 a 30 respuestas correctas para 80 de los 200 
problemas, sobre los que el estudiante no tiene conocimientos? 

Solucion: La probabilidad de una respuesta correcta para cada una de las 80 preguntas es 
p = 1/4. Si X representa el numero de respuestas correctas por la mera adivinacion, 
entonces, 

30 

P{ 25 < X < 30) = b ( x > 80, 1/4). 

x=25 

A1 usar la aproximacion de la curva normal con 


y 


p = np = (80) 



= 20 , 


a = y/npq = \J (80)(l/4)(3/4) = 3.873, 


necesitamos el area entre x\ = 24.5 y xi = 30.5. Los valores z correspondientes son 


z\ 


24.5 - 20 
3.873 


1.16, 


y 


22 


30.5 - 20 
3.873 


2.71. 


La probabilidad de adivinar correctamente de 25 a 30 preguntas esta dada por la 
region sombreada de la figura 6.27. De la tabla A. 3 encontramos que 

30 

P{ 25 <X <30)= Y & ( x ; 80 ’ °- 25 ) ~ p ( L16 < Z < 2.71) 

x=25 

= P(Z < 2.71) - P(Z < 1.16) = 0.9966 - 0.8770 = 0.1196. 


J 
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Ej ercicios 

6.23 Evalue P( 1 < X < 4) para una variable bino- 
mial con n = 15yp = 0.2 utilizando 

a) la tabla A.l del apendice; 

b) la aproximacion de la curva normal. 

6.24 Se lanza una moneda 400 veces. Utilice la apro- 
ximacion de la curva normal para encontrar la proba- 
bilidad de obtener 

a) entre 185 y 210 caras inclusive; 

b) exactamente 205 caras; 

c) menos de 176 o mas de 227 caras. 

6.25 Un proceso para fabricar un componente elec- 
tronic© tiene 1% de defectuosos. Un plan de control de 
calidad consiste en seleccionar 100 artfculos del proceso, 
y si ninguno esta defectuoso, el proceso continua. Use la 
aproximacion normal a la binomial para encontrar 

a) la probabilidad de que el proceso continue con el plan 
de muestreo que se describe; 

b) la probabilidad de que el proceso continue aun si 
este va mal (es decir, si la frecuencia de componen- 
tes defectuosos cambio a 5.0% de defectuosos). 

6.26 Un proceso produce 10% de articulos defectuosos. 
Si se seleccionan al azar 100 artfculos del proceso, /.cual 
es la probabilidad de que el numero de defectuosos 

a) exceda los 13? 

b) sea menor que 8? 

6.27 La probabilidad de que un paciente se recupere 
de una operation de corazon delicada es 0.9. De los si- 
guientes 100 pacientes que se someten a esta operation, 
^cual es la probabilidad de que 

a) sobrevivan entre 84 y 95 inclusive? 

b) sobrevivan menos de 86? 

6.28 Investigadores de la Universidad George Was- 
hington y del Instituto Nacional de Salud informan 
que aproximadamente 75% de las personas creen que 
“los tranquilizantes funcionan muy bien para lograr 
que una persona este mas tranquila y relajada” . De las 
siguientes 80 personas entrevistadas, ^cual es la proba- 
bilidad de que 

a) al menos 50 tengan esta opinion? 

b) a lo mas 56 tengan esta opinion? 

6.29 Si 20% de los residentes de una ciudad estado- 
unidense prefieren un telefono bianco sobre cualquier 
otro color disponible, ^,cual es la probabilidad de que 
entre los siguientes 1000 telefonos que se instalen en 
esa ciudad 

a) entre 170 y 185 inclusive sean blancos? 

b) al menos 210 pero no mas de 225 sean blancos? 


6.30 Un fabricante de medicamentos sostiene que cier- 
to medicamento cura una enfermedad de la sangre, en 
promedio, en 80% de las veces. Para verificar la aseve- 
racion, inspectores gubernamentales utilizan el medi- 
camento en una muestra de 100 individuos y deciden 
aceptar la afirmacion si se curan 75 o mas. 

a) ^Cual es la probabilidad de que la aseveracion se 
rechace cuando la probabilidad de curacion es, de 
hecho, 0.8? 

b) ^Cual es la probabilidad de que el gobierno acepte 
la afirmacion cuando la probabilidad de curacion sea 
tan baja como 0.7? 

6.31 Un sexto de los estudiantes hombres de primer 
ano que entran a una escuela estatal grande provienen 
de otros estados. Si los estudiantes se asignan a los 
dormitorios al azar, 180 en un edificio, ^cual es la pro- 
babilidad de que en un dormitorio dado al menos un 
quinto de los estudiantes provenga de otro estado? 

6.32 Una companfa farmaceutica sabe que aproxima- 
damente 5% de sus pfldoras anticonceptivas tienen un 
ingrediente que esta por debajo de la dosis minima, lo 
que vuelve ineficaz a la pfldora. ^,Cual es la probabili- 
dad de que menos de 10 en una muestra de 200 pfldoras 
sean ineficaces? 

6.33 Estadfsticas publicadas por la Administration 
Nacional de Seguridad de Transito en Carreteras y el 
Consejo de Seguridad Nacional muestran que en una 
noche promedio de fin de semana, 1 de cada 10 conduc- 
tores esta ebrio. Si se verifican 400 conductores al azar 
la siguiente noche de sabado, ^cual es la probabilidad 
de que el numero de conductores ebrios sea 

a) menor que 32? 

b) mayor que 49? 

c) al menos 35 pero menos que 47? 

6.34 Un par de dados se lanza 180 veces. ^Cual es la 
probabilidad de que ocurra un total de 7 

a) al menos 25 veces? 

b) entre 33 y 41 veces inclusive? 

c) exactamente 30 veces? 

6.35 Una companfa produce componentes para un mo- 
tor. Las especificaciones de las partes sugieren que 95% 
de los artfculos cumplen con las especificaciones. Las 
partes se embarcan en lotes de 100 para los clientes. 

a) ^Cual es la probabilidad de que mas de 2 artfculos 
esten defectuosos en un lote dado? 

b) ^Cual es la probabilidad de que mas de 10 artfculos 
esten defectuosos en un lote? 
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6.36 Una practica comun por parte de las companfas 
de aviation consiste en vender mas boletos que el mi- 
mero real de asientos para un vuelo especffico, porque 
los clientes que compran boletos no siempre se presen- 
tan a tomar el vuelo. Suponga que el porcentaje de 
pasajeros que no se presentan a la bora del vuelo es 2%. 
Para un vuelo particular con 197 asientos, se vendieron 
un total de 200 boletos. ^,Cual es la probabilidad de que 
la aerolmea tenga una sobresaturacion del vuelo? 

6.37 El nivel de colesterol X en chicos de 14 anos 
tiene aproximadamente una distribution normal, con 
una media de 170 y desviacion estandar de 30. 

a) Determine la probabilidad de que el nivel de coles- 
terol de un chico de 14 anos, elegido al azar, exceda 
230. 


b) En una escuela secundaria hay 300 chicos de 14 anos. 
Determine la probabilidad de que por lo menos 8 
ninos tengan un nivel de colesterol que exceda 230. 

6.38 Una companfa de telemarketing tiene una ma- 
quina especial para abrir cartas, que abre y extrae el 
contenido de los sobres. Si un sobre se coloca de forma 
incorrecta en la maquina, su contenido no puede ex- 
traerse o incluso podri'a danarse. En este caso, se dice 
que la maquina “fallo” . 

a) Si la maquina tiene una probabilidad de fallar de 
0.01, £cual es la probabilidad de que ocurra mas 
de 1 falla en un lote de 20 sobres? 

b) Si la probabilidad de falla de la maquina es 0.01 y se 
va a abrir un lote de 500 sobres, ^cual es la probabi- 
lidad de que ocurran mas de 8 fallas? 


6.6 Distribuciones gamma y exponencial 

Aunque la distribution normal se puede utilizar para resolver muchos problemas en 
ingenierfa y en la ciencia, hay aun numerosas situaciones que requieren diferentes 
tipos de funciones de densidad. Dos de estas funciones de densidad, las distribucio- 
nes gamma y exponencial, se estudiaran en esta section. 

Resulta que la distribution exponential es un caso especial de la distribution ga- 
mma. Ambas encuentran un gran numero de aplicaciones. Las distribuciones expo- 
nencial y gamma juegan un papel importante en la teorfa de colas y en problemas de 
confiabilidad. Los tiempos entre llegadas en instalaciones de servicio, y los tiempos 
de operation antes del fallo de partes componentes y sistemas electricos, a menudo 
quedan bien modelados mediante la distribution exponencial. La relation entre la 
distribution gamma y la exponencial permite que la gamma se involucre en tipos de 
problemas similares. En la section 6.7 se ofreceran mas cletalles e ilustraciones. 

La distribution gamma cleriva su nombre de la bien conocida funcion gamma, 
que se estudia en muchas areas de las matematicas. Antes de que procedamos con 
la distribution gamma, repasemos esta funcion y algunas de sus propiedades impor- 
t antes. 


Definition 6.2: 


La funcion gamma se define como 


POO 


T(a) = / x a ~ 1 e~ x dx , 

para a > 0. 

Jo 



Al integrar por partes con u = x a 1 y dv = e x dx, obtenemos 

POO pOO 

r(a) = — e~ x + / e~ x (a — l)x a ~ 2 dx = (a — 1) / x a ^ 2 e^ x dx , 

Jo Jo 

para a > 1, que produce la formula recursiva 

r(o:) = {a — l)r(a — 1). 


La aplicacion repetida de la formula recursiva da 

r(a) = (a - l)(a - 2)r(a - 2) = (a - l)(a - 2) (a - 3)r(a - 3), 





6.6 Distribuciones gamma y exponential 


195 


y asf sucesivamente. Observe que cuando a = n, donde n es un entero positivo, 

r( n ) = (n — l)(n — 2) • • • (l)r(l). 

Sin embargo, por la definicion 6.2, 

/•OO 

r(l) = / e~ x dx = 1, 

Jo 


y de aquf, 


F(n) = (n — 1)!. 


Una propiedad importante de la funcion gamma, que se deja al lector para su veri- 
fication (vease el ejercicio 6.41 de la pagina 205), es que L(l/2) = y/n. 

Incluiremos ahora la funcion gamma en nuestra definicion de la distribution 
gamma. 


Distribution La variable aleatoria continua X tiene una distribucion gamma, con parame- 
Gamma tros a y f3, si su funcion de densidad esta dada por 


f(x\a,(3) 


| /3°T(qi) X< * 1(2 


x>0, 

en cualquier otro caso, 


donde a > 0 y (3 > 0. 

En la figura 6.28 se muestran graficas de varias distribuciones gamma para ciertos 
valores especfficos de los parametros a y (3. La distribucion gamma especial para la 

que a = 1 se llama distribucion exponential. 


f(x) 



Figura 6.28: Distribuciones gamma. 
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Distribution La variable aleatoria continua X tiene una distribution exponencial, con pa- 
exponencial rametro f3, si su funcion de clensidad esta dada por 




0 = 


x > 0, 

en cualquier otro caso, 


donde (3 > 0. 

El siguiente teorema y corolario dan la media y la varianza de las distribuciones 
gamma y exponencial. 


Teorema 6.3: 


La media y la varianza de la distribution gamma son 

p = af3, y a 2 = a/3 2 . 


La demostracion de este teorema se encuentra en el Apendice A. 28. 


Corolario 6.1: 


La media y la varianza de la distribution exponencial son 


p = f3, y <t 2 =/3 2 . 


Relacion con el proceso de Poisson 

Continuaremos con las aplicaciones de la distribution exponencial y despues regresa- 
remos a la distribution gamma. Las aplicaciones mas importantes de la distribution 
exponencial son situaciones donde se aplica el proceso de Poisson (vease el capitulo 
5). El lector deberla recordar que el proceso de Poisson permite el uso de la distri- 
bution discreta llamada distribution de Poisson. Recuerde que la distribution de 
Poisson se utiliza para calcular la probabilidad de numeros especificos de “eventos” , 
durante un periodo o espacio particulares. En muchas aplicaciones, el tiempo o la 
cantidad de espacio es la variable aleatoria. Por ejemplo, un ingeniero industrial se 
puede interesar en modelar el tiempo T entre llegadas a una intersection conges- 
tionada durante las horas de mayor afluencia en una ciudad grande. Una llegada 
representa el evento de Poisson. 

La relacion entre la distribution exponencial (a menudo denominada exponencial 
negativa) y el proceso de Poisson es bastante simple. En el capitulo 5 la distribution 
de Poisson se desarrollo como una distribution de un solo parametro con parametro 
A, donde A se interpreta como el numero medio de eventos por unidad de “tiempo 
Considere ahora la variable aleatoria descrita por el tiempo que se requiere para 
que ocurra el primer evento. Usando la distribution de Poisson, encontramos que 
la probabilidad de que no ocurra algun evento, en el periodo hasta el tiempo i, esta 
dada por 


p(0; At) 


e“ At (A t)° 

0 ! 


Ahora podemos utilizar lo anterior y hacer que X sea el tiempo para el primer even- 
to de Poisson. La probabilidad de que la duration del tiempo hasta el primer evento 
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exceda x es la misma que la probabilidad de que no ocurra algun evento de Poisson 
en x. Esto ultimo, por supuesto, esta dado por e~ Xx . Como resultado, 

P(X >x) = e~ Xx . 

Asi, la funcion de distribucion acumulada para X esta dada por 

P{0 < X < x) = 1 - e~ Xx . 

Entonces, con la finalidad de que reconozcamos la presencia de la distribucion ex- 
ponencial, podemos diferenciar la funcion de distribucion acumulada anterior para 
obtener la funcion de densidad 


f(x) = Xe ~ Xx , 

que es la funcion de densidad de la distribucion exponencial con A = 1 / (3. 

6.7 Aplicaciones de las distribuciones exponencial y gamma 

En lo anteriormente expuesto estudiamos las bases para la aplicacion de la distribu- 
cion exponencial en el “tiempo de llegada” o tiempo para problemas con eventos de 
Poisson. Ilustraremos aqui y despues procederemos a discutir el papel de la distribu- 
cion gamma en estas aplicaciones de modelado. Observe que la media de la distri- 
bucion exponencial es el parametro (3, el reciproco del parametro en la distribucion 
de Poisson. El lector cleberia recordar que con frecuencia se dice que la distribucion de 
Poisson no tiene memoria, lo cual implica que las ocurrencias en periodos sucesivos 
son independientes. El parametro (3 importante es el tiempo medio entre eventos. En 
teoria de confiabilidad, donde la falla de equipo con frecuencia se ajusta a este proce- 
so de Poisson, (3 se llama tiempo medio entre fallas. Muchas descomposturas de 
equipo siguen el proceso de Poisson y, por ello, se aplica la distribucion exponencial. 
Otras aplicaciones incluyen tiempos de supervivencia en experimentos biomedicos y 
tiempo de respuesta de computadoras. 

En el siguiente ejemplo mostramos una aplicacion simple de la distribucion expo- 
nencial a un problema de confiabilidad. La distribucion binomial tambien juega un 
papel en la solucion. 


Ejemplo 6.17:1 Suponga que un sistema contiene cierto tipo de componente cuyo tiempo de ope- 
ration antes del fallo, en anos, esta dado por T. La variable aleatoria T se modela 
bien mediante la distribucion exponencial con tiempo medio de operation antes del 
fallo (3 = 5. Si se instalan 5 de estos componentes en diferentes sistemas, ^cual es la 
probabilidad de que al menos dos aun funcionen al final de 8 anos? 

Solucion: La probabilidad de que un componente dado aun funcione despues de 8 anos esta 
dada por 

1 r°° 

P(T > 8) = - / e-*/ 5 dt = e -8/5 « 0.2. 

5 J 8 

Represent emos con X el numero de componentes que funcionan despues de 8 anos. 
Entonces, utilizando la distribucion binomial 


x—2 


1 

P(X > 2) = b(x; 5, 0.2) = 1 - ^ b(x; 5, 0.2) = 1 - 0.7373 = 0.2627. 

x—0 
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Capitulo 6 Algunas distribuciones continuas de probabilidad 


En el capitulo 3 hay ejercicios y ejemplos en que el lector ya trabajo con la dis- 
tribution exponencial. Otros que implican problemas de tiempo de espera y de con- 
fiabilidad pueden encontrarse en el ejemplo 6.24 y en los ejercicios y ejercicios de 
repaso al final de este capitulo. 

La propiedad de falta (o fallo) de memoria y su efecto 
en la distribucion exponencial 

Los tipos de aplicacion de la distribucion exponencial en la confiabilidad y en los 
problemas de tiempo de vida de una maquina o de un componente estan influidos por 
la propiedad de falta de memoria ( memoryless ) de la distribucion exponencial. Por 
ejemplo, en el caso de un componente electronico donde la distribucion del tiempo de 
vida sigue una distribucion exponencial, la probabilidad de que el componente dure, 
por ejemplo, t horas, esto es, P(X > t), es la misma que la probabilidad condicional 

P{X > to + t | X > to). 

De manera que si el componente “alcanza” las to horas, la probabilidad de durar t 
horas adicionales es la misma que la probabilidad de durar t horas. Asf que no hay 
“castigo” a traves del desgaste como resultado de durar las primeras to horas. Por lo 
tanto, la distribucion exponencial es mas adecuada cuando se justifica la propiedad 
de falta de memoria. No obstante, si la falla del componente es resultado del desgas- 
te gradual o lento (como en el caso del desgaste mecanico), entonces no se aplica la 
distribucion exponencial, y la distribucion gamma o de Weibull (section 6.10) serfan 
mas adecuadas. 

La importancia de la distribucion gamma radica en el hecho de que define una 
familia de la que otras distribuciones son casos especiales. Pero la gamma misma tie- 
ne aplicaciones importantes en tiempo de espera y teorfa de confiabilidad. Mientras 
que la distribucion exponencial describe el tiempo hasta la ocurrencia de un evento 
de Poisson (o el tiempo entre eventos de Poisson), el tiempo (o espacio) que trans- 
curre hasta que ocurre un niimero especifico de eventos de Poisson es una variable 
aleatoria, cuya funcion de densidad esta clescrita por la de la distribucion gamma. 
Este numero especifico de eventos es el parametro a en la funcion de densidad ga- 
mma. Asf se vuelve facil comprender que cuando a = 1, ocurre el caso especial de 
la distribucion exponencial. La densidad gamma se puede desarrollar de su relation 
con el proceso de Poisson de la misma manera en que lo hicimos con la densidad 
exponencial. Los detalles se dejan al lector. El siguiente es un ejemplo numerico del 
uso de la distribucion gamma en una aplicacion de tiempo de espera. 


Ejemplo 6.18:1 Suponga que las llamadas telefonicas que llegan a un conmutador particular siguen 
un proceso de Poisson con un promedio de 5 llamadas entrantes por minuto. ^Cual 
es la probabilidad de que transcurra a lo mas un minuto hasta que lleguen 2 llama- 
das al conmutador? 

Solucion: El proceso de Poisson se aplica al tiempo que pasa hasta la ocurrencia de 2 eventos 
de Poisson que siguen una distribucion gamma con f3 = 1/5 y a = 2. Denote con X 
el tiempo en minutos que transcurre antes de que lleguen 2 llamadas. La probabili- 
dad que se requiere esta dada por 

P{X < 1) = [ -^xe~ x//3 dx = 25 [ xe~ 5x dx = 1 - e" 5 (l + 5) = 0.96. 

Jo P Jo 

Mientras el origen de la distribucion gamma trata con el tiempo (o espacio) hasta 
la ocurrencia de a eventos de Poisson, hay muchos ejemplos donde una distribucion 
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gamma trabaja muy bien aunque no exista una estructura de Poisson clara. Esto es 
particularmente cierto para problemas de tiempo de supervivencia en aplicacio- 
nes de ingenierfa y biomedicas. 


Ejemplo 6.19: 


Solucion: 


T? , i ye y 

F{x;a ) = / — dy. 

Jo "(a) 

Si hacemos, y = x//3, so x = j3y, tenemos 

r 6 v 4 e~ v 

P[X - 60) = L W dv • 

que se clenota como F(6; 5) en la tabla de la funcion gamma incompleta del Apen- 
dice A. 24. Observe que esto permite un calculo rapido de las probabilidades para la 
distribucion gamma. De hecho, para este problema la probabilidad de que la rata no 
sobreviva mas de 60 clias esta dada por 

P(X < 60) = F(6;5) = 0.715. 


En un estudio biomedico con ratas se utiliza una investigation de respuesta a la do- 
sis para determinar el efecto de la dosis de un toxico en su tiempo de supervivencia. 
El toxico es uno que se descarga con frecuencia en la atmosfera desde el combustible 
de los aviones. Para cierta dosis del toxico el estudio determina que el tiempo de 
supervivencia, en semanas, tiene una distribucion gamma con a = 5 y (3 = 10. ^Cual 
es la probabilidad de que una rata no sobreviva mas de 60 semanas? 

Sea la variable aleatoria X el tiempo de supervivencia (tiempo para morir) . La pro- 
babilidad que se requiere es 


P(X < 60) = 


r 60 


,a-l p -x/ p 


r(s) 


dx. 


La integral anterior se puede resolver mediante la funcion gamma incompleta, 
que resulta ser la funcion de distribucion acumulada para la distribucion gamma. 
Esta funcion se escribe como 


Ejemplo 6.20:1 A partir de los datos disponibles se sabe que la longitud de tiempo en meses entre las 
quejas de los clientes sobre cierto producto es una distribucion gamma con a = 2 y 
f3 = 4. Se realizaron cambios que implican intensificar los requerimientos del control 
de calidad. De acuerdo con tales cambios, pasan 20 meses antes de la primera queja. 
^Pareceria que resulto eficaz la intensification del control de calidad? 

Solucion: Sea X el tiempo para la primera queja, la cual, bajo las condiciones anteriores a los 
cambios, sigue una distribucion gamma con a = 2 y (3 = 4. La pregunta se centra 
alrededor de que tan raro es X > 20 dado que ay/1 permanecen con los valores 2 y 4, 
repectivamente. En otras palabras, bajo las condiciones anteriores es razonable un 
“tiempo para la queja” tan grande como 20 meses? Siguiendo la solucion del ejemplo 
6.19, por lo tanto, necesitamos 


r 20 


P(X > 20) = 1 - 




„a-\ e -x/P 

rR 


dx. 


De nuevo, usando y = x//3, tenemos 


P(X > 20) = 1 - 


f 5 ye~ v 

3 Ry 


dy = 1 - F(5; 2) = 1 - 0.96 = 0.04, 


donde se encuentra F( 5; 2) = 0.96 a partir de la tabla A. 24. 
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Como resultado, concluimos que las condiciones de la distribution gamma con 
a = 2y/3=4no estan apoyadas por los datos de que un tiempo observado para la 
queja sea tan grande como 20 meses. Entonces, es razonable concluir que el trabajo 
de control de calidad resulto eficaz. 


Ejemplo 6.21:1 Considere el ejercicio 3.31 de la pagina 90. Con base en pruebas de gran alcance se 
determino que el tiempo Y en anos antes de que se requiera una reparacion mayor 
para cierta lavadora se caracteriza por la funcion de densidad 

f -e~ y / A v ^ 0 

fix) = h * y - ’ 

[0, en cualquier otro caso. 

Observe que es una exponential con p = 4 anos. La maquina se considera una ganga 
si es improbable que requiera una reparacion mayor antes del sexto ano. Entonces, 
^cual es la probabilidad de P(Y > 6)? Ademas, ^cual es la probabilidad de ocurra 
una reparacion mayor durante el primer ano? 

Solucion: Considere la funcion de distribution acumulada F(y) para la distribution exponen- 
tial 



1 - e" y//3 . 


De manera que 


P(Y > 6) = 1 - F{ 6) = e _3/2 = 0.2231. 

Por lo tanto, la probabilidad de que requiera una reparacion mayor despues de seis 
anos es 0.223. Desde luego, requerira la reparacion antes del ano seis con probabili- 
dad de 0.777. Asf, se podria concluir que la maquina no es realmente una ganga. La 
probabilidad de que ocurra una reparacion mayor durante el primer ano es 

P(Y < 1) = 1 - e“ 1/4 = 1 - 0.779 = 0.221. 


6.8 Distribution chi cuadrada 

Otro caso especial muy importante de la distribution gamma se obtiene al hacer 
a = v/2 y (3 = 2, donde v es un entero positivo. Este resultado se llama distribucion 
chi cuadrada. La distribucion tiene un solo parametro, v, llamado grados de 
libertad. 


Distribucion La variable aleatoria continua X tiene una distribucion chi cuadrada, con v gra- 
chi cuadrada dos de libertad, si su funcion de densidad esta dada por 


f(x-v) 


( , % ~y/2-l r -x/2 

J 2 v / 2 r(v/ 2 ) 

\o, 


x > 0, 

en cualquier otro caso, 


donde v es un entero positivo. 



6.9 Distribution logaritmica normal 


201 


La distribution chi cuadrada juega un papel fundamental en la inferencia esta- 
clistica. Tiene una aplicacion considerable tanto en la metodologia como en la teoria. 
Aunque no estudiaremos con detalle sus aplicaciones en este capitulo, es importante 
tener en cuenta que los capitulos 8, 9 y 16 contienen aplicaciones importantes. La 
distribucion chi cuadrada es un componente importante de la prueba de hipotesis y 
la estimation estadisticas. 

Los temas que tratan con distribuciones de muestreo, analisis de varianza y es- 
tadistica no parametrica implican el uso extenso de la distribucion chi cuadrada. 

Teore ma 6.4: La media y la varianza de la distribucion chi cuadrada son 

H = v y <j 2 = 2v. 


6.9 Distribucion logaritmica normal 

La distribucion logaritmica normal se utiliza en una amplia variedad de aplicacio- 
nes. La distribucion se aplica en casos clonde una transformation logaritmica natural 
tiene como resultado una distribucion normal. 


Distribucion La variable aleatoria continua X tiene una distribucion logaritmica normal si la 
logaritmica normal variable aleatoria Y = ln(X) tiene una distribucion normal con media /r y desvia- 
cion estandar o. La funcion de densidad de X que resulta es 


j J- e 2 » 2 f 111 ^- 1 , x > 0, 

f{x;n,(T ) = < 

0, x < 0. 


Las graficas de las distribuciones logaritmicas normales se ilustran en la figura 6.29. 



Figura 6.29: Distribuciones logaritmicas normales. 
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Teorema 6.5: 


La media y la varianza de la distribution logaritmica normal son 
p = e^ +(j2/2 y a 2 = (e^ - 1). 


La funcion de distribution atumulada es bastante simple debido a su relation eon la 
distribution normal. El uso de la funcion de distribution se ilustra con el siguiente 
ejemplo. 


Ejemplo 6.22:1 Se sabe que historicamente la concentration de contaminantes producidos por plan- 
tas quimicas exhiben un comportamiento que se parece a una distribution logarit- 
mica normal. Esto es importante cuando se consideran problemas respecto de la 
obediencia de las regulaciones gubernamentales. Suponga que la concentration de 
cierto contaminante, en partes por millon, tiene una distribution logaritmica normal 
con parametros p = 3.2 y o = 1. ^Cual es la probabilidad de que la concentration 
exceda 8 partes por millon? 

Solucion: Sea la variable aleatoria X la concentration de contaminantes 

P{X > 8) = 1 - P{X < 8). 

Como ln(A) tiene una distribution normal con media p = 3.2 y desviacion estandar 
cr = 1, 


P(X < 8) = $ 


ln(8) - 3.2 

1 


$(—1.12) = 0.1314. 


Aqui, utilizamos la notation $ para denotar la funcion de distribution acumulada 
de la distribution normal estandar. Como resultado, la probabilidad de que la con- 
centration del contaminante exceda 8 partes por millon es 0.1314. 


Ejemplo 6.23:1 La vida, en miles de millas, de un cierto tipo de control electronico para locomotoras 
tiene una distribution logaritmica normal aproximada con p = 5.149 y a = 0.737. 
Encuentre el quinto percentil de la vida de esa locomotora. 

Solucion: A partir de la tabla A. 3, sabemos que P(Z < —1.645) = 0.05. Denote como X la 
vida de la locomotora. Puesto que ln(X) tiene una distribution normal con media 
p = 5.149 y cr = 0.737, el quinto percentil de X se calcula como 

ln(x) = 5.149 + (0.737)(-1.645) = 3.937. 

Entonces, x = 51.265. Esto significa que solo el 5% de las locomotoras tendran un 
tiempo de vida menor que 51,265 miles de millas. 


6.10 Distribution de Weibull (opcional) 

La tecnologia actual nos permite disenar muchos sistemas complicados cuya opera- 
cion, o quiza seguridad, depende de la confiabilidad de los diversos componentes que 
conforman los sistemas. Por ejemplo, un fusible puede quemarse, una columna de ace- 
ro puede torcerse o un dispositivo sensor de calor puede fallar. Componentes iden- 
ticos sujetos a identicas condiciones ambientales fallaran en momentos diferentes 
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Distribution 
de Weibull 


Teorema 6.6: 


e impredecibles. Ya examinamos el papel que las distribuciones gamma y exponen- 
cial juegan en estos tipos de problemas. Otra distribution que se ha utilizado con 
amplitud en anos recientes para tratar con tales problemas es la distribucion de 
Weibuill, que presento el fisico sueco Waloddi Weibull en 1939. 


La variable aleatoria continua X tiene una distribucion de Weibull, con para- 
metros a y (3 si su funcion de densidad esta clada por 


/(*;«,» = l al3xS ' 




1 °, 


x > 0, 

en cualquier otro caso, 


clonde a > 0 y (3 > 0. 


En la figura 6.30 se ilustran las graficas de la distribucion de Weibull para a = 1 y 
di versos valores del parametro (3. Vemos que las curvas cambian de forma de manera 
considerable para diferentes valores del parametro (3. Si hacemos (3 = 1, la distri- 
bucion de Weibull se reduce a la distribucion exponential. Para valores de (3 > 1, las 
curvas se vuelven un poco en forma de campana y se asemejan a las curvas norma- 
ls, pero muestran algo de asimetrfa. 


f(x) 



Figura 6.30: Distribuciones de Weibull ( a = 1). 


La media y varianza de la distribucion de Weibull se establecen en el siguiente 
teorema. Se solicita al lector que de la demostracion en el ejercicio 6.48 de la pagina 


205. 


La media y la varianza de la distribucion de Weibull son 


p = a~ 1/0 T 



y cr 


-2/0 lr(i + y 

P 



Al igual que la distribucion gamma y la exponential, la distribucion de Weibull 
tambien se aplica a problemas de confiabilidad y de prueba de vida como los de 

tiempo de operacion antes del fallo o la duracion de la vida de un componente, 
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que se miden desde algun tiempo especi'fico hasta que falla. Representemos este 
tiempo de operacion antes del fallo mediante la variable aleatoria continua T, con 
funcion de densidad de probabilidad f(t), donde /(t) es la distribution de Weibull. 
Esta tiene la flexibilidad inherente de no requerir la propiedad de falta de memoria 
de la distribucion exponencial. La funcion de distribucion acumulada (fda) para la 
distribucion de Weibull se puede escribir en forma cerrada y, en efecto, es muy util 
para calcular probabilidades. 


fda para la 
distribucion 
de Weibull 


La funcion de distribucion acumulada para la distribucion de Weibull esta dada 
por 

F(x) = 1 - e~ axP , para x > 0, 

para a > 0 y (3 > 0. 


Ejemplo 6.24:1 El tiempo de vida X, en horas, de un arti'culo en el taller mecanico tiene una distri- 
bucion de Weibull con a = 0.01y/3=2. ^Cual es la probabilidad de que falle antes 
de ocho horas de uso? 

Solucion: P(X < 8) = F( 8) = 1 - e -( 0 01 ) 82 = 1 - 0.527 = 0.473. 

La tasa de falla para la distribucion de Weibull 

Cuando se aplica la distribucion de Weibull, con frecuencia es util cleterminar la 
tasa de falla (algunas veces denominada tasa de riesgo) para tener conocimiento 
del desgaste o cleterioro del componente. Definamos primero la confiabilidad de un 
componente o producto como la probabilidad de que f undone adecuadamente por 
al menos un tiempo especifico bajo condiciones experimentales especificas. Por lo 
tanto, si R(t) se define como la confiabilidad del componente dado en el tiempo t, 
escribimos 


R(t) = P(T >t) = J f{t) dt= 1 - F(t), 

donde F\t) es la funcion de distribucion acumulada de T. La probabilidad conditio- 
nal de que un componente caiga en el intervalo de T = f a T = f + At, dado que 
sobrevive al tiempo t, es 

F(t -I- At) - F(t) 

m ■ 

Al dividir esta proportion entre At y tomar el lfmite cuando At — > 0, obtenemos la 
tasa de falla, denotada con Z(t). De aquf, 


m 


F(t + At) — F(t) 1 

lim — 

At^o At R(t) 


F'(t) f(t) 
R(t) R(t) 


m 

i -p(ty 


que expresa la tasa de falla en terminos de la distribucion del tiempo de operacion 
antes del fallo. 

Como Z(t) = /(t)/[l — E(t)], entonces la tasa de falla esta dada como sigue: 


Tasa de falla La tasa de falla en el tiempo t para la distribucion de Weibull esta dada por 
para la distribucion 

de Weibull = , 


t > 0. 
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Interpretacion de la tasa de falla 

La cantidad Z(t) es bien llamada tasa de falla porque en verdad cuantifica la tasa de 
cambio con el tiempo de la probabilidad conditional de que el componente dure una 
At adicional dado que ha durado el tiempo t. Es importante la tasa de disminucion 
(o crecimiento) con el tiempo. Los siguientes puntos son fundamentales. 

a) Si (3 = 1, la tasa de falla = a, una constante. Esto, como se indico anteriormen- 
te, es el caso especial de la distribution exponential en que predomina la falta 
de memoria. 

b) Si (3 > 1, Z{t) es una funcion creciente de t que indica que el componente se 
desgasta con el tiempo. 

c) Si j3 < 1, Z(t) es una funcion decreciente de tiempo y, por lo tanto, el compo- 
nente se fortalece o endurece con el paso del tiempo. 

Por ejemplo, el articulo en el taller mecanico del ejemplo 6.24 tiene (3 = 2 y por 
consiguiente se desgasta con el tiempo. De hecho, la funcion de la tasa de falla esta 
dada por Z{t) = .02 1. Por otro lado, suponga un paramtero donde /3=3/4ya = 2. 
Z(t) = 1.5 /t 4 y, por lo tanto, el componente se hace mas fuerte con el tiempo. 


Ej ercicios 

6.39 Si una variable aleatoria X tiene una distribu- 
tion gamma con a = 2 y f3 = 1, encuentre P(1.8 < X 
< 2.4). 

6.40 En cierta ciudad, el consumo diario de agua (en 
millones de litros) sigue aproximadamente una distri- 
bution gamma con a = 2 y /3 = 3. Si la capacidad 
diaria de dicha ciudad es 9 millones de litros de agua, 
^cual es la probabilidad de que en cualquier dfa dado el 
suministro de agua sea inadecuado? 

6.41 Utilice la funcion gamma con y = y/2x para de- 
mostrar que T(l/2) =y / 7r. 

6.42 Suponga que el tiempo, en lioras, que toma re- 
parar una bomba de calor es una variable aleatoria X 
que tiene una distribution gamma con parametros a = 2 
y (3 = 1/2. ^Cual es la probabilidad de que la siguiente 
llamada de servicio requiera 

a) a lo mas 1 liora para reparar la bomba de calor? 

b) al menos 2 horas para reparar la bomba de calor? 

6.43 a ) Encuentre la media y la varianza del consu- 
mo diario de agua del ejercicio 6.40. 

6) De acuerdo con el teorema de Chebyshev, /.hay una 
probabilidad de al menos 3/4 de que el consumo de 
agua en cualquier di'a dado caiga dentro de un inter- 
valo? ^De cual? 

6.44 En cierta ciudad, el consumo diario de energi'a 
electrica, en millones de kilowatts-hora, es una varia- 
ble aleatoria X que tiene una distribution gamma con 
media n = 6 y varianza a 2 = 12. 


a) Encuentre los valores de a y (3. 

b) Encuentre la probabilidad de que en cualquier di'a 
dado el consumo de energi'a diario exceda los 12 mi- 
llones de kilowatts-hora. 

6.45 La longitud de tiempo para que un individuo 
sea atendido en una cafeteria es una variable aleatoria 
que tiene una distribution exponential con una media 
de 4 minutos. ^Cual es la probabilidad de que una per- 
sona sea atendida en menos de 3 minutos en, al menos, 
4 de los siguientes 6 dfas? 

6.46 La vida, en anos, de cierto interruptor electrico 
tiene una distribution exponential con una vida prome- 
dio de (3 = 2. Si 100 de estos interruptores se instalan 
en diferentes sistemas, ^.cual es la probabilidad de que 
a lo mas 30 fallen durante el primer ano? 

6.47 Suponga que la vida de servicio, en anos, de la 
baten'a de un aparato para reducir la sordera es una 
variable aleatoria que tiene una distribution de Weibull 
con a =1/2 y /3 = 2. 

a) ^.Cuanto tiempo se puede esperar que dure tal baterfa? 

b) ^Cual es la probabilidad de que tal baten'a este en 
operation despues de 2 anos? 

6.48 Derive la media y la varianza de la distribution 
de Weibull. 

6.49 Las vidas de ciertas juntas para automovil 
tienen la distribution de Weibull con tasa de falla 

~ V Vi- Encuentre la probabilidad de que tal jun- 
ta aun este en uso despues de 4 anos. 
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6.50 La variable aleatoria continua X tiene la dis- 
tribution beta con parametros a y f3 si su funcion de 
densidad esta dada por 


/(*) 


rti-f/b c 

r(a)r(/3) x 

0 , 




0 < x < 1, 
en cualquier otro 


caso. 

donde a > 0 y /? > 0. Si la proportion de una marca 
de televisores que requiere servicio durante el primer 
ano de operacion es una variable aleatoria que tiene 
una distribution beta con a = 3 y j3 = 2, ^cual es la 
probabilidad de que al menos 80% de los nuevos mode- 
los de esta marca que se vendieron este ano requeriran 
servicio durante su primer ano de operacion? 


6.51 En una actividad de investigation biomedica se 
determino que el tiempo de supervivencia, en semanas, de 
un animal cuando se le somete a cierta exposition de ra- 
diation gamma tiene una distribution gamma con a = 5 

y P = 10. 

a ) ^Cual es el tiempo medio de supervivencia de un 
animal seleccionado al azar del tipo que se utilizo en 
el experimento? 

b) ^Cual es la desviacion estandar del tiempo de super- 
vivencia? 

c) ^Cual es la probabilidad de que un animal sobreviva 
mas de 30 semanas? 


a) ^Cual es la probabilidad de que el tiempo de res- 
puesta exceda 5 segundos? 

b) ^Cual es la probabilidad de que el tiempo de res- 
puesta exceda 10 segundos? 

6.54 Los datos de porcentaje a menudo siguen una 
distribution logari'tmica normal. Se estudia el uso pro- 
medio de potencia (dB por bora) para una compama 
espetifica y se sabe que tiene una distribution logarit- 
mica normal con parametros p = 4 y cr = 2. ^Cual es la 
probabilidad de que la compafua utilice mas de 270 dB 
durante cualquier hora particular? 

6.55 Para el ejercicio 6.54, ^cual es el uso de potencia 
media (dB promedio por hora)? ^Cual es la varianza? 

6.56 El numero de automoviles que llegan a cierta 
intersection por minuto tiene una distribution de Pois- 
son con una media de 5. El interes se centra alrededor 
del tiempo que transcurre antes de que 10 automoviles 
aparezcan en la intersection. 

a) ^Cual es la probabilidad de que mas de 10 automo- 
viles aparezcan en la intersection durante cualquier 
minuto dado? 

b) ^Cual es la probabilidad de que se requieran mas de 
2 nrinutos antes de que lleguen 10 automoviles? 


6.52 Se sabe que el tiempo de duration, en semanas, 
de cierto tipo de transistor sigue una distribution ga- 
mma con media de 10 semanas y desviacion estandar 
de V50 semanas. 

a) ^Cual es la probabilidad de que el transistor dure a 
lo mas 50 semanas? 

b) ^Cual es la probabilidad de que el transistor no so- 
breviva las primeras 10 semanas? 

6.53 El tiempo de respuesta de una computadora es 
una aplicacion importante de las distribuciones gamma 
y exponential. Suponga que un estudio de cierto siste- 
ma de computadoras revela que el tiempo de respues- 
ta, en segundos, tiene una distribution exponential con 
una media de 3 segundos. 


6.57 Considere la information del ejercicio 6.56. 

a) ^Cual es la probabilidad de que transcurra mas de 
1 minuto entre llegadas? 

b) ^Cual es el numero medio de minutos que transcu- 
rren entre llegadas? 

6.58 Muestre que la funcion de tasa de falla esta 
dada por 

Z(t) = aftt 13 - 1 , t>0, 

y solo si la distribution del tiempo de operacion antes 
del fallo es la distribution de Weibull 

/(f) = a/3t l3 ^ 1 e^ at , t > 0. 


Ejercicios de repaso 


6.59 De acuerdo con un estudio publicado por un 
grupo de sociologos de la Universidad de Massachu- 
setts, aproximadamente 49% de los consumidores de 
Valium en el estado de Massachusetts son empleados 
de oficina. ^,Cual es la probabilidad de que entre 482 
y 510, inclusive, de los siguientes 1000 consumidores 
de Valium seleccionados al azar de dicho estado sean 
empleados de oficina? 

6.60 La distribution exponencial se aplica con frecuen- 
cia a los tiempos de espera entre exitos en un proceso 


de Poisson. Si el numero de llamadas que se reciben 
por hora en un servicio de contestation telefonica es 
una variable aleatoria de Poisson con parametro A = 6, 
sabemos que el tiempo, en horas, entre llamadas suce- 
sivas tiene una distribution exponencial con parametro 
j3 = 1/6. ^.Cual es la probabilidad de esperar mas de 15 
minutos entre cualesquiera dos llamadas sucesivas? 

6.61 Cuando a es un entero positivo n, la distribu- 
tion gamma, tambien se conoce como distribution de 
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Erlang. A1 hacer a = n eii la distribution gamma de la 
pagina 195, la distribution de Erlang es 

f x n - 1 e - x /! 3 > q 

f( X ) = { /3 n (n — 1)! ’ X > U ’ 

I 0, en cualquier otro caso. 

Se puede mostrar que si los tiempos entre eventos su- 
cesivos son independientes, y cada uno tiene una distri- 
bution exponencial con parametro f3, entonces el tiem- 
po de espera total X transcurrido hasta que ocurran n 
eventos tiene la distribution de Erlang. Con referenda 
al ejercicio de repaso 6.60, ^cual es la probabilidad de 
que las siguientes 3 llamadas se reciban dentro de los 
siguientes 30 minutos? 

6.62 Un fabricante de cierto tipo de maquina grande 
desea comprar remaches de uno de dos fabricantes. Es 
importante que la resistencia a la rotura de cada rema- 
che exceda 10,000 psi. Dos fabricantes (A y B) ofrecen 
este tipo de remache y ambos tienen remaches cuya re- 
sistencia a la rotura esta distribuida de forma normal. 
Las resistencias a la rotura medias para los fabricantes 
Ay B son 14,000 y 13,000 psi, respectivamente. Las des- 
viaciones estandar son 2000 y 1000 psi, respectivamen- 
te. ^.Cual fabricante producira, en promedio, el menor 
mimero de remaches defectuosos? 

6.63 De acuerdo con un censo reciente, casi 65% de 
todos los liogares en Estados Unidos se componen de una 
o dos personas. Suponiendo que este porcentaje aun sea 
valido en la actualidad, ^cual es la probabilidad de que 
entre 590 y 625 inclusive de los siguientes 1000 hogares 
seleccionados al azar en Estados Unidos consistan en 
una o dos personas? 

6.64 La vida de cierto tipo de dispositivo tiene una 
tasa de falla anunciada de 0.01 por hora. La tasa de 
falla es constante y se aplic.a la distribution exponen- 
cial. 

a) ^.Cual es el tiempo medio de operation antes del 
fallo? 

b) ^Cual es la probabilidad de que pasen 200 floras 
antes de que se observe una falla? 

6.65 En una planta de procesamiento qufmico es im- 
portante que el rendimiento de cierto tipo de producto 
en lote se mantenga por arriba de 80%. Si permanece 
por debajo de 80% por un tiempo prolongado, la com- 
panfa pierde dinero. Los lotes producidos ocasional- 
mente con defectos son de poco interes. Pero si varios 
lotes por di'a resultan defectuosos, la planta se detie- 
ne y se llevan a cabo ajustes. Se sabe que el rendimien- 
to se distribuye normalmente con desviacion estandar 
de 4%. 

a) ^Cual es la probabilidad de una “falsa alarma” (ren- 
dimiento por debajo de 80%) cuando el rendimiento 
medio es de 85%? 

b) ^Cual es la probabilidad de que un lote producido 
tenga un rendimiento que exceda 80% cuando de 
hecho el rendimiento medio es de 79%? 


6.66 Considere la tasa de falla de un componente 
electrico de una vez cada 5 horas. Es importante consi- 
derar el tiempo que transcurre para que fallen 2 com- 
ponentes. 

a) Suponiendo que se aplica la distribution gamma, 
^cual es el tiempo medio que transcurre para la falla 
de 2 componentes? 

b) ^Cual es la probabilidad de que transcurran 12 ho- 
ras antes de que fallen 2 componentes? 

6.67 Se establece que el alargamiento (elongation) de 
una barra de acero bajo una carga particular se distri- 
buye normalmente con una media de 0.05 pulgadas y 
a = 0.01 pulgadas. Encuentre la probabilidad de que el 
alargamiento este 

a) por arriba de 0.1 pulgadas; 

b) por abajo de 0.04 pulgadas; 

c) entre 0.025 y 0.065 pulgadas. 

6.68 Se sabe que un satelite controlado tiene un error 
(distancia del objetivo) que se distribuye normalmente 
con media cero y desviacion estandar de 4 pies. El fa- 
bricante del satelite define un “exito” como un disparo 
en el cual el satelite llega a 10 pies del objetivo. Calcule 
la probabilidad de que el satelite falle. 

6.69 Un tecnico planea probar cierto tipo de resina 
desarrollada en el laboratorio para determinar la natu- 
raleza del tiempo que transcurre antes de que se realice 
la union. Se sabe que el tiempo medio para la union es 
3 horas y la desviacion estandar es 0.5 horas. Un pro- 
ducto se considerara indeseable si el tiempo de union 
es menos de 1 hora o mas de 4 horas. Comente sobre 
la utilidad de la resina. i,Con que frecuencia su desem- 
peno se considera indeseable? Suponga que el tiempo 
para la union se distribuye normalmente. 

6.70 Considere la information del ejercicio de repaso 
6.64. ^,Cual es la probabilidad de que transcurran me- 
nos de 200 horas antes de que ocurran 2 fallas? 

6.71 Para el ejercicio de repaso 6.70, ferial es la me- 
dia y la varianza del tiempo que transcurre antes de 
que ocurran 2 fallas? 

6.72 Se sabe que la tasa promedio de uso de agua 
(miles de galones por hora) en cierta comunidad im- 
plica la distribution logantmica normal con parame- 
tros p = 5 y a = 2. Para propositos de planeacion es 
importante lograr un buen juicio sobre los periodos de 
alta utilization. ^Cual es la probabilidad de que, para 
cualquier hora dada, se usen 50,000 galones de agua? 

6.73 Para el ejercicio de repaso 6.72, ^cual es la me- 
dia del uso de agua por hora promedio en miles de 
galones? 

6.74 En el ejercicio 6.52 de la pagina 206, se supone 
que la duration de un transistor tiene una distribution 
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gamma con media de 10 semanas y desviacion estandar 
de ^50 semanas. Si la suposicion de la distribution 
gamma es incorrecta y la distribution es normal, 

a) /cusd es la probabilidad de que el transistor dure a 
lo mas 50 semanas? 

b) icusd es la probabilidad de que el transistor no so- 
breviva las primeras 10 semanas? 

c) comente la diferencia entre sus resultados aquf y los 
que se encontraron en el ejercicio 6.52 de la pagina 
206. 

6.75 Considere el ejercicio 6.50 de la pagina 206. La 
distribution beta tiene amplia aplicacion en problemas 
de confiabiliad, donde la varaible aleatoria fundamen- 
tal es una proportion en el contexto practico que se 
ilustra en el ejemplo. A1 respecto, considere el ejercicio 
de repaso 3.75 de la pagina 105. Las impurezas en el 
lote del producto de un proceso quimico reflejan un 
problema grave. Se sabe que la proportion de impure- 
zas Ken un lote tiene la funcion de densidad 

fly) = { ^ - ^) 9 ’ 0 < V < !. 

\0, en cualquier otro caso. 

a) Verifique que la anterior sea una funcion de densi- 
dad valida. 

b) ^Cual es la probabilidad de que un lote se considere 
no aceptable (es decir, Y> 0.6)? 

c) ^Cuales son los parametros a y j3 de la distribution 
beta que se ilustra aquf? 

d) La media de la distribucion beta es . ^Cual es la 
proportion media de impurezas en el lote? 

e) La varianza de una variable aleatoria beta distribui- 
da es 


a/3 

(a + /3) 2 {a + f3 + 1) ' 


^Cual es la varianza de Ye n este problema? 


6.76 Considere ahora el ejercicio de repaso 3.76 de la 
pagina 105. La funcion de densidad del tiempo Z en mi- 
nutos entre las llamadas a un sistema de alimentation 
electrica esta dada por 



0 < z < oo, 

en cualquier otro caso. 


a) ^,Cual es el tiempo medio entre llamadas? 

b) ^Cual es la varianza en el tiempo entre llamadas? 

c) ^,Cual es la probabilidad de que el tiempo entre lla- 
madas supere la media? 


6.77 Considere el ejercicio de repaso 6.76. Dada la 
suposicion de la distribucion exponential, ^cual es el 
numero medio de llamadas por hora? ^.Cual es la va- 
rianza en el numero de llamadas por hora? 

6.78 En un proyecto experimental sobre el factor hu- 
mano, se determino que el tiempo de reaction de un 
piloto ante un estfmulo visual esta distribuido normal- 
mente con una media de 1/2 segundo y una desviacion 
estandar de 2/5 de segundo. 

a) ^Cual es la probabilidad de que una reaction del 
piloto tome mas de 0.3 segundos? 

b) i Que tiempo de reaction se excede 95% de las veces? 

6.79 La longitud de tiempo entre fallas de una pieza 
esencial de equipo es importante en la decision del uso de 
equipo auxiliar. Un ingeniero cree que el mejor “mode- 
lo” para el tiempo entre fallas de un generador es la 
distribucion exponential con una media de 15 dfas. 

а) Si el generador acaba de fallar, ^cual es la probabi- 
lidad de que falle en los siguientes 21 dfas? 

б) ^Cual es la probabilidad de que el generador funcio- 
nara durante 30 dfas sin falla? 

6.80 El periodo de vida, en horas, de una broca en 
una operation mecanica tiene una distribution de Wei- 
bull con a = 2 y (3 = 50. Encuentre la probabilidad de 
que la broca fallara antes de 10 horas de uso. 

6.81 Encuentre la fda para la distribucion de Wei- 
bull. [Sugerencia: En la definition de una fda, haga la 
transformation z = y^.\ 

6.82 En el ejercicio de repaso 6.80, explique porque 
la naturaleza del escenario probablemente no se preste 
a la distribucion exponential. 

6.83 A partir de la relation entre la variable aleatoria 
chi cuadrada y la variable aleatoria gamma, demuestre 
que la media de la variable aleatoria chi cuadrada es v 
y que la varianza es 2v. 

6.84 La longitud de tiempo, en segundos, que un 
usuario de computadora lee su correo electronico se 
distribuye como una variable aleatoria logarftmica nor- 
mal con p = 1.8 y cr 2 = 4.0. 

a) ^Cual es la probabilidad de que el usuario lea el 
correo por mas de 20 segundos? jY por mas de un 
minuto? 

b) ^Cual es la probabilidad de que el usuario lea el co- 
rreo durante una longitud de tiempo que sea igual a 
la media de la distribucion logarftmica normal sub- 
yacente? 
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6.11 Nociones erroneas y riesgos potenciales; 

relacion con el material de otros capitulos 

Muchos de los riesgos en el uso del material de este capitulo son muy similares a los 
del capitulo 5. Cuando se realiza un tipo de inferencia estadistica, uno de los ma- 
yores usos incorrectos de la estadistica consiste en suponer una distribution normal 
subyacente cuando en realidad no es normal. El lector estara expuesto a las prueba 
de hipotesis en los capitulos 10 a 15, en los cuales se hace la suposicion de normalidad. 
Ademas, no obstante, se le recordara al lector que hay pruebas de la bondad del 
ajuste, ademas de las rutinas graficas que se examinan en los capitulos 8 y 10, que 
permiten “verificar” los datos para determinar si es razonable la suposicion de nor- 
malidad. 




Capftulo 7 

Funciones de variables aleatorias 
(opcional) 


7.1 Introduccion 

Este capftulo contiene un amplio espectro de material. Los capftulos 5 y 6 tratan con 
tipos especfficos de distribuciones, tanto discretas como continuas. Estas son distri- 
buciones que encuentran uso en muchas aplicaciones de temas como confiabilidad, 
control de calidad y muestreo de aceptacion. En este capftulo comenzamos con un 
tema mas general: las distribuciones de funciones de variables aleatorias. Se presen- 
tan las tecnicas generates y se ilustran con ejemplos. Van seguidas por un concepto 
relacionado, funciones generadoras de momentos, que puede ser util en el estudio de 
distribuciones de funciones lineales de variables aleatorias. 

En los metodos estadfsticos estandar, el resultado de la prueba de hipotesis esta- 
dfsticas, la estimation o incluso las graficas estadfsticas no implica una sola variable 
aleatoria sino, mas bien, funciones de una o mas variables aleatorias. Como resulta- 
do, la inferencia estadfstica requiere la distribucion de tales funciones. Por ejemplo, 
es comun el uso de promedios de variables aleatorias. Ademas, son importantes 
las sumas y las combinaciones lineales mas generates. Con frecuencia nos interesa la 
distribucion de sumas de los cuadrados de variables aleatorias, en particular el uso 
de las tecnicas del analisis de varianza que se estudian en los capftulos 11 a 14. 


7.2 Transformaciones de variables 

Con frecuencia, en estadfstica, se encuentra la necesidad de derivar la distribucion 
de probabilidad de una funcion de una o mas variables aleatorias. Por ejemplo, 
suponga que X es una variable aleatoria discreta con distribucion de probabilidad 
/( x) y suponga, ademas, que Y = u(X) define una transformation uno a uno entre 
los valores de X y Y. Queremos encontrar la distribucion de probabilidad de Y. Es 
importante notar que la transformation uno a uno implica que cada valor x esta 
relacionado con un, y solo un, valor y = u(x), y que cada valor y esta relacionado 
con un, y solo un, valor x = w(y ), donde w(y) se obtiene al resolver y = u(x) para 
x en terminos de y. 
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Teorema 7.1: 


Ejemplo 7.1: 


Solucion: 


De nuestro estudio de las distribuciones de probabilidad discreta en el capitulo 3 
resulta claro que la variable aleatoria Y toma el valor y cuando X toma el valor w(y). 
En consecuencia, la distribution de probabilidad de Y esta dada por 

g(y) = P(Y = y) = P[x = w(y)\ = f[w(y)}. 


Suponga que X es una variable aleatoria discreta con distribution de probabili- 
dad f{x). Definamos con Y = u(X) una transformacion uno a uno entre los valores 
de X y Y 1 de manera que la ecuacion y = u(x) se resuelva umvocamente para x en 
terminos de y, digamos, x = w(y). Entonces, la distribution de probabilidad de Y 
es 

g{y) = f[w(y)] 


Sea X una variable aleatoria geometrica con distribution de probabilidad 

3 / 1 \ X_1 

fi x ) = 1 (jJ > x = 1,2,3,.... 

Encuentre la distribucion de probabilidad de la variable aleatoria Y = X 2 . 

Como los valores de X son todos positivos, la transformacion define una correspon- 
dence uno a uno entre los valores x y y, y = x 2 y x = ^Jy. De aqui, 


g(y) 


/(C5) = !G)^‘ 

0 , 


y= 1,4,9,..., 
en cualquier otro caso. 


J 


Considere un problema donde X\ y Xi son dos variables aleatorias discretas con 
distribucion de probabilidad conjunta f(x i, yf) y que deseamos encontrar la distri- 
bucion de probabilidad conjunta g(y i, yf) de las dos variables aleatorias nuevas 


Y 1 = u 1 (X 1 ,X 2 ) y Y 2 =u 2 (X 1 ,X 2 ). 


que definen una transformacion uno a uno entre el conjunto de puntos (xi, x 2 ) y (yi, 
■y 2 ). A1 resolver las ecuaciones y\ = ui(xi, x 2 ) y y 2 = u 2 {x\, x 2 ) de forma simultanea, 
obtenemos la solucion inversa unica 


xi = wi(yi, y 2 ) y x 2 = w 2 {yi, y 2 ). 

De aquf las variables aleatorias Y\ y Y 2 toman los valores yi y y 2 , respectivamente, 
cuando X\ toma el valor w\{y\, y 2 ) y X 2 toma el valor w 2 = (yi, yf)- La distribucion 
de probabilidad conjunta de Yi, y Y 2 es, entonces, 


0 ( 2 /i, 2/2) = P(Yi = 2/1, ^2 = 2/2) 

= P[X\ = wi{yi,y 2 ),X 2 = u>2 (01,2/2)] 
= f[wi{yi,y2),‘w 2 (yi,y 2 )}. 
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Teorema 7.2: 


Ejemplo 7.2: 


Solucion: 


Suponga que X\ y X 2 son variables aleatorias discretas con distribution de pro- 
babilidad conjunta f(x 1, x 2). Definamos con Y\ = u\{Xi , X 2 ) y Y 2 = W2(-Air X 2 ) 
una transformation uno a uno entre los puntos (aq, x 2 ) y (2/1, y 2 ), de manera que 
las ecuaciones 

2 /i = ui(xi, x 2 ) y 2/2 = u 2 (xi, x 2 ) 

se pueden resolver umvocamente para x\ y x 2 en terminos de 2/1 y 52, digamos 
X\ = 101(2/1, 2/2) y x 2 = 102(2/1, y 2 ). Entonces, la distribucion de probabilidad con- 
junta de Yi y Y2 es 

5(2/1, 52) = /[«/i(yi, 2/2), 11/2(51, 52)]- 


El teorema 7.2 es bastante util para encontrar la distribucion de alguna variable 
aleatoria Y\ = Ui(Xi, X 2 ), donde X\ y X 2 son variables aleatorias discretas con dis- 
tribucion de probabilidad conjunta /( aq, x 2 ). Definimos simplemente una segunda 
funcion, digamos Y2 = u 2 (Xi, X 2 ), y mantenemos una correspondencia uno a uno 
entre los puntos (xi, x 2 ) y (2/1, 52), y obtenemos la distribucion de probabilidad 
conjunta (7(2/1, y 2 ). La distribucion de Yi es precisamente la distribucion marginal de 
5(51, 52) que se encuentra al sumar los valores y 2 . A 1 denotar la distribucion de Y± 
con h(yi), escribimos 

h ( yi ) = ^5(51,52)- 

2/2 


Sean X\ y X 2 dos variables aleatorias independientes que tienen distribuciones de 
Poisson con parametros 7x1 y fi 2 , respectivamente. Encuentre la distribucion de la 
variable aleatoria Yi = X\ + X 2 . 

Como Xi y X 2 son independientes, podemos escribir 


f(x l,x 2 ) = f{x 1 )f(x 2 ) = ; j— 


e -(m+M2)^i^2 


aqlaq! 


donde aq = 0 , 1 , 2 , > . . y x 2 = 0 , 1 , 2 , . . . Definamos ahora una segunda variable aleato- 
ria, digamos Y2 = X 2 . Las funciones inversas estan dadas por aq = 51 — y 2 y x 2 = 2/2- 
Con el teorema 7.2 encontramos que la distribucion de probabilidad conjunta de Y\ 
y Y 2 es 


5 ( 51 , 52 ) 


(51 - 2/2)152! 


donde 2/1 = 0 , 1 , 2 , ... Y 2/2 = 0, 1 , 2 ,..., yi. Note que como aq > 0 , la transforma- 
cion Xi = 2/1 — x 2 implica que y 2 y, por lo tanto, x 2 siempre deben ser menores que 
o iguales a 2/1- En consecuencia, la distribucion de probabilidad marginal de Y\ es 


Kyi 


Vl 


1/2=0 


5 i! 


52) = 

1/1 

; e ~(vi+v-2) y ' 

V2=0 

,,yi-y 2 ,,y 2 
Pi P 2 

(51 - 52)152! 

yi 

5 i ! 

52! (51 - 



-E 

2 / 2=0 

n yi-y 2 . .2/2 

yi 

0"" 



■E 

V2=0 

-2/2 ..2/2 
P 2 





214 


Capitulo 7 Funciones de variables aleatorias (opcional) 


A1 reconocer esta suma como la expansion binomial de {p\ + P 2 ) yi , obtenemos 


%i) 




yd 


y i = 0,1,2,..., 


de lo cual concluimos que la suma de las dos variables aleatorias independientes que 
tienen distribuciones de Poisson, con parametros pi y p 2 , tiene una distribution de 
Poisson con parametro p\ + p 2 - 

Para encontrar la distribution de probabilidad de la variable aleatoria Y = u{X) 
cuando X es una variable aleatoria continua y la transformation es uno a uno, ne- 
cesitaremos el teorema 7.3. 


Teorema 7.3: 


Suponga que X es una variable aleatoria continua con distribucion de probabili- 
dad f{x) . Definamos con Y = u{ X) una correspondence uno a uno entre los valo- 
res de X y Y, de manera que la ecuacion y = u(x) se resuelva unfvocamente para 
x en terminos de y, digamos x = w(y). Entonces, la distribucion de probabilidad 
de Y es 

a(y) = f[w(y)]\J\> 

donde J = w'(y) y se llama jacobiano de la transformation. 


y 




y = u(x) 

b 


1 

1 

a 

/T 

l 

i 

l 

i 

i 

1 

1 

1 

1 

1 

1 

1 

1 


w(a) 

w(b) 


Figura 7.1: Funcion creciente. 


y = u (x) 



w{b) w(a) 

Figura 7.2: Funcion decreciente. 


Prueba: Suponga que y = u(x) es una funcion creciente como la de la figura 7.1. 

Entonces, vemos que siempre que Y cae entre a y 6, la variable aleatoria X debe caer 
entre w(a) y w(b). De aquf, 

fw(b) 

P(a < Y < b) = P[w(a) < X < w(b)] — / f(x) dx. 

J w(a) 

A1 cambiar la variable de integration de x a y mediante la relation x = w (y), obte- 
nemos dx = w'(y)dy y, por lo tanto, 


= / f[w{y)]w'{y) dy. 


P(a <Y< b ) 
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Como la integral da la probabilidad que se desea para toda a < b dentro del conjun- 
to permisible de valores y, entonces la distribution de probabilidad de Y es 

g(y) = /Ky)H(y) = f[w{y)\J. 

Si reconocemos J = w'(y) como el reciproco de la pendiente de la linea tangente a la 
curva de la funcion creciente y = u( x), entonces es evidente que ./ = |J|. De aqui, 

g(y) = f[w(y)]\J\- 

Suponga que y = u(x) es una funcion decreciente como la de la figura 7.2. Entonces, 
escribimos 


rw{a) 

P{a <Y < b) = P[w(b) < X < w(a)] = / f(x) dx. 

J w(b ) 


pa pb 

P{a <Y <b)= / f[w(y)]w'(y) dy = f[w(y)]w'(y) 

Jb Ja 


dy , 


De nuevo, al cambiar la variable de integracion por y , obtenemos 

f[w(y)]w'{y) dy= - j 
lb 

de lo cual concluimos que 

g(y) = -/Hy)H(y) = -f[w(y)]J- 

En este caso, la pendiente de la curva es negativa y J = — \J\. Entonces, 

g(y) = f[ w (y)\\ J \ , 


como antes. 


J 


Ejemplo 7.3:1 Sea X una variable aleatoria continua con distribucion de probabilidad 

1 < x < 5, 

en cualquier otro caso. 

Encuentre la distribucion de probabilidad de la variable aleatoria Y = 2X — 3. 
Solucion: La solution inversa de y = 2x — 3 da x = (y + 3)/2, de la que obtenemos J = w'(y) = 
dx/dy = 1/2. Por lo tanto, usando el teorema 7.3, encontramos que la funcion de 
densidad de Y es 



g(y) 


(y+ 3)/2 n\ _ a+3 
12 \2) 48 ’ 

0 ' 


-i <y < 7, 

en cualquier otro caso. 


J 


Para encontrar la distribucion de probabilidad conjunta de las variables aleato- 
rias Yi = Uii^Xi, X 2 ) y Y 2 = U 2 (Xi, X 2 ), cuando X\ y X 2 son continuas, y la trans- 
formation es uno a uno, necesitamos un teorema adicional, analogo al teorema 7.2, que 
establecemos sin demostracion. 
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Teorema 7.4: 


Ejemplo 7.4: 


Solucion: 


Suponga que X\ y X 2 son variables aleatorias continuas con distribucion de pro- 
babilidad conjunta f(x±, x 2 ). Definamos con Y\ = u\{X\, X 2 ) y Y 2 = u 2 (Xi, X 2 ) 
una transformation uno a uno entre los puntos (aq, x 2 ) y (y 1 , y 2 ), de manera que 
las ecuaciones y\ = u\(x\, x 2 ) y y 2 = u 2 {x\, x 2 ) se resuelve umvocamente para X\ 
y x 2 en terminos de y\ y y 2l digamos aq = W\{y\, y 2 ) y x 2 = w 2 (yi, y 2 ). Entonces, 
la distribucion de probabilidad conjunta de Y\ y Y 2 es 

.9(2/1, 2/2) = f[w 1 (y 1 ,y 2 ),w 2 (y 1 ,y 2 )]\J\, 


donde el jacobiano es el determinante 2x2 


J = 


dxi 

dyi 

0X2 

dyi 


dx\ 

dyi 

OXi 

dyi 


y jtyj" es simplemente la derivada de aq = Wi(yi, y 2 ) con respecto a y±, y y 2 perma- 
nece constante, que en calculo se clenomina derivada parcial de X\ con respecto a 
y\. Las otras derivadas parciales se definen de manera similar. 


Sean X±, y X 2 dos variables aleatorias continuas con distribucion de probabilidad 
conjunta 


,, . 4:X 1 x 2 , 0 < Xi < 1, 0 < x 2 < 1, 

f{xi,x 2 ) = s . 

I 0, en cuaiquier otro caso. 

Encuentre la distribucion de probabilidad conjunta de Yl = Xf y Y 2 = X\X 2 . 
Las soluciones inversas de 2/i = x\ y y 2 = Xix 2 son aq = ^Jy{ y x 2 = V 2 l \Jyi-, 
las que obtenemos 


J 


1/(2 Vm) 0 

-y 2 !2y\ 2 1/ i/yl 


1 

2//i’ 


Para determinar el conjunto B de puntos en el piano yiy 2 en el que se traza (mapea) 
el conjunto A de puntos en el piano aqaq, escribimos 

xi = ifyi y x 2 = 2 / 2 / V 2/1 

y despues al hacer X\ = 0, x 2 = 0, Xi = 1 y x 2 = 1, las fronteras del conjunto 
A se transforman a y\ = 0, y 2 = 0, y\ = 1 y y 2 = ^Jyl o y\ = y\. Las dos re- 
giones se ilustran en la figura 7.3. Claramente, la transformation es uno a uno, 
al trazar el conjunto A = {{x\, x 2 ) | 0 < x\ < 1, 0 < x 2 < 1} en el conjunto 
B = {(2/i, 1 / 2 ) I y 2 < 2/i < 1, 0 < 2/2 < 1}- Del teorema 7.4, la distribucion de proba- 
bilidad conjunta de Y\ y Y 2 es 


9(2/i,2/2) = 4(v/yl) 


2/2 


Vvi 22/1 


2 /| < 2 /i < 1 , 0 < 1/2 < 1 , 
en cuaiquier otro caso. 


A menudo surgen problemas cuando deseamos encontrar la distribucion de pro- 
babilidad de la variable aleatoria Y = u(X) cuando X es una variable aleatoria con- 
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*2 



y 2 



Figura 7.3: Trazo del conjunto A en el conjunto B. 


tinua y la transformation no es uno a uno. Es decir, para cada valor x corresponde 
exactamente un valor y; pero a cada valor y corresponde mas de un valor x. Por 
ejemplo, suponga que f(x) es positiva en el intervalo —1 < x < 2 y cero en cualquier 
otro caso. Considere la transformation y = x 2 . En este caso x = ±^/y para 0 < y 
< 1 y x = yAj para 1 < y < 4. Para el intervalo 1 < y < 4, la distribution de pro- 
babilidad de Y se encuentra como antes, con el teorema 7.3. Es decir, 

g{y ) = f[w{y)]\J\ = l < y < 4. 

2 y/y 

Sin embargo, cuando 0 < y < 1, podemos dividir el intervalo — 1 < x < 1 para ob- 
tener las dos funciones inversas 


x = -yjy, -1 < x < 0, y x = y/y, 0 < x < 1. 

Entonces para todo valor y corresponde un solo valor x para cada partition. De la 
figura 7.4 vemos que 


P(a<Y <b) = P(-Vb < X < -v'ti) + P(y/a < X < Vb) 


I y/a r Vb 

/( x) dx+ f(x) dx. 

— Vb J V® 


A1 cambiar la variable de integration de x a y, obtenemos 

r b 


P{a <Y < b) = f f{-y/y)Ji dy + f f{y/y)J 2 dy 

J b J a 

= - I f(~Vy ) J i d v+ I f{Vy)-h dy , 

J a J a 


d{-y/y) _ 
dy 2 y/y 




donde 
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y 



y 


7 d ^ 1 I J\ 

- — - vf - 1*' 


De aqui, podemos escribir 


P(a <Y <b) = / [f{~y/y)\Ji\ + f{Vy)\J 2 \] dy, 


y entonces 


9(y) = f(-Vv)\ J i\ + f(Vy)\ J 2 \ = — o < y < i. 


La distribucion de probabilidad de Y para 0 < y < 4 se puede escribir ahora como 


9{y) 


( f(.-Yv)+f(Yy) 

2y/v ' 

f(Yv) 

2 Yv ’ 

0, 


0 < y < 1, 

1 < y < 4, 

en cualquier otro caso. 


Este procedimiento para encontrar g{y) cuando 0 < y < 1 se generaliza en el teore- 
ma 7.5 para k funciones inversas. Para transformaciones que no son uno a uno de 
funciones de varias variables, se recomienda al lector Introduction to Mathematical 
Statistics de Hogg y Craig (vease la bibliograffa) . 
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Teorema 7.5: 


Suponga que X es una variable aleatoria continua con distribution de probabi- 
lidad /( x). Definamos con Y = u(X) una transformation entre los valores de X 
y Y que no es uno a uno. Si el intervalo sobre el que se define X se puede dividir 
en k conjuntos mutuamente disjuntos, de manera que cada una de las funciones 
inversas 

xi = wi(y), x 2 = w 2 (y), ■ ■■, x k = w k (y) 

de y = u(x) defina una correspondencia uno a uno, entonces la distribucion de 
probabilidad de Y es 

k 

9(y) = ^2f[wi{y)]\Ji\, 

i= 1 

donde Ji = w i (y), i = 1,2, ... ,k. 


Ejemplo 7.5:1 Muestre que Y = {X — fr) 2 /a 2 tiene una distribucion chi cuadrada con 1 grado de 
libertad cuando X tiene una distribucion normal con media / i y varianza a 2 . 
Solucion: Sea Z = ( X — y)/cr, donde la variable aleatoria Z tiene la distribucion normal es- 
tandar 


m 



— OO < Z < 00. 


Encontraremos ahora la distribucion de la variable aleatoria Y — Z 2 . Las soluciones 
inversas de y = z 2 son z = ± yfy. Si clesignamos z\ = —y/y y z 2 = ,/y. entonces 
Ji = —1/2 ^fy yJ 2 = 1/2 ^fy. De aquf, por el teorema 7.5, tenemos 


y(y) = 




y/2 

-1 

+ 1 e~ y/2 

1 


2 Vy 

s/2 n 

2 s/y 


■\Z2tt 


y 1 l 2 ~ 1 e~v/ 2 , 


y> o. 


Como g{y) es una funcion de densidad, se sigue que 


1 = 




y 


1/2-1 -y/2 


Jo x/2r(l/2) V 7 T 


la integral es el area bajo una curva de probabilidad gamma con parametros a = 
1/2 y j3 = 2. Por lo tanto, = T(l/2) y la distribucion de probabilidad de Y esta 
dada por 


g(y) 


\tir(i/ 2 ) 

0, 


y l/2-l e -y/2 ; 


y > o, 

en cualquier otro caso, 


que se considera una distribucion chi cuadrada con 1 grado de libertad. 


J 


7.3 Momentos y funciones generadoras de momentos 

En esta section nos concentramos en aplicaciones de las funciones generadoras de 
momentos. El proposito evidente de la funcion generadora de momentos es la deter- 
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Definicion 7.1: 


Definicion 7.2: 


Teorema 7.6: 


Prueba: 


Ejemplo 7.6.: 


minacion de los momentos de variables aleatorias. Sin embargo, la contribution mas 
importante consiste en establecer distribuciones de funciones de variables aleatorias. 

Si g(X) = X r para r = 0, 1, 2, 3, . . . , la definicion 7.1 da un valor esperado que 
se denomina r-esimo momento alrededor del origen de la variable aleatoria X, 
que denotamos como p 

El r-esimo momento alrededor del origen de la variable aleatoria X esta dado 
por 

x r fix), si X es discreta, 

J_ x r f[x) dx , si X es continua. 


Como el primer y segundo momentos alrededor del origen estan dados por fi 1 = E(X) 
y /x 2 = E(X 2 ), podemos escribir la media y la varianza de una variable aleatoria 
como 


p = p 1 y a 2 =p 2 -p 2 . 

Aunque los momentos de una variable aleatoria se pueden determinar directamente 
de la definicion 7.1, existe un procedimiento alternative, el cual requiere que utilice- 

mos una funcion generadora de momentos. 


La funcion generadora de momentos de la variable aleatoria X esta dada por 
E(e tx ) y se denota con Mx(t). De aquf, 

i ^2e tx f(x), si X es discreta, 

f_ oo e tx f(x ) dx, si X es continua. 


Las funciones generadoras de momentos existiran solo si la suma o integral de la 
definicion 7.2 converge. Si existe una funcion generadora de momentos de una varia- 
ble aleatoria X, se puede utilizar para generar todos los momentos de dicha variable. 
El metodo se describe en el teorema 7.6. 


Sea X una variable aleatoria con funcion generadora de momentos Mx(t). Enton- 

ces, 


d r M x (t) 

, 

dt r 

= Mr* 

t = 0 


Suponiendo que podemos diferenciar dentro de la sumatoria y los signos de la inte- 
gral, obtenemos 

^2 x r e tx f(x), si X es discreta, 


d r M x (t) 

dt r 


fZ x r e tx f(x) dx, si X es continua. 


A1 hacer t = 0, vemos que ambos casos se reducen a E(X r ) = p r 


Encuentre la funcion generadora de momentos de la variable aleatoria binomial X y 
despues utilfcela para verificar que p = np y a 2 = npq. 
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Solucion: 


Ejemplo 7.7: 


Solucion: 


De la definicion 7.2, tenemos 
M x (t) = 


e tx ( " )p x q n ~ x = J2(- t .) (.pe t ) x q n ~ x 

x=0 


Si reconocemos esta ultima suma como la expansion binomial de (pe 4 + q) r \ obte- 
nemos 


Asf, 


M x (t) = {pe 1 + q) n . 
dM x (t ) 


= n{pe t + q) n 1 pe t 


dt 


d 2 M x (t) 
dt 2 


= np[e t (n — l)(pe 4 + q) n pe 4 + (pe 4 + q) n 1 e 4 ]. 


A1 hacer t = 0, obtenemos 


Por lo tanto, 


Pi = np 


p 2 = np[(n - 1 )p+ 1]. 


H = (i l = np 


V 2 = p 2 - P 2 = np(l - p) = npg, 

que esta de acuerdo con los resultados que se obtuvieron en el capftulo 5. 


Muestre que la funcion generadora de momentos de la variable aleatoria X que tiene 
una distribucion de probabilidad normal con media p y varianza o 2 esta dada por 


1 


M x (t) = exp ( pt + T^^t 2 


De la definicion 7.2 la funcion generadora de momentos de la variable aleatoria nor- 
mal X es 


/ OO 

e 4 

-OO 


1 




■ exp 


1 f x — p 

2 l (T 


dx 


l-oo VZkc 


■ exp 


x 2 - 2 (p + to 2 ) x + p 2 

2^ 


dx. 
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Al comp let ar el cuadrado en el exponente, escribimos 

x 2 — 2 (p + ta 2 )x + p 2 = [x — (p + to 2 )] 2 — 2/ito 2 — t 2 a 4 


y, entonces, 


M x (t)= I 


1 f [x — (fi + ter 2 )] 2 — 2/ito 2 — t 2 o 4 , 

exp s \ dx 


= exp 


— oo \/ 2l TO 

(2/it + o 2 t 2 \ r°° i 


V 


)Lvk^{ 


2 a 2 


exp fczAitti!! Ux . 


2 a 2 


Sea w = [a: — (// + to 2 )]/<r; entonces dx = a dw y 


JV/x (t) = exp ( pt H — a 2 t 2 j f e ™ dw = exp ( pt H — cr 2 t 2 

V 2 / ./-oo v27T V 2 

ya que la ultima integral representa el area bajo una curva de densidad normal es- 
tandar y, por ello, es igual a 1. 


Ejemplo 7.8:1 Muestre que la funcion generadora de momentos de la variable aleatoria X que tiene 
una distribucion chi cuadrada con v grados de libertad es Mx{t) = (1 — 2 t)~ v ^ 2 . 

Solucion: La distribucion chi cuadrada se obtuvo como un caso especial de la distribucion 
gamma al hacer a = v/2 y f3 — 2. A1 sustituir por f(x) en la definition 7.2, obtene- 
mos 


M x (t)= [ 
Jo 


1 


0 2-/2l>/2) 

1 / 


»/2-l e -*/2 dx 


2 v / 2 T(y /2) Jo 


®/2-l e -*(l-2t)/2 dx . 


Al escribir y = x{\ — 2t)/2 y dx = [2/(1 — 2t)] dy, obtenemos para t < 


M x (t) = 


1 


2 v / 2 T{v /2) 

1 


2 y 


1 - 2 1 


v/2-l 


1 - 2 1 


dy 


r(v/2)(l-2ty / 2 J 0 


y 


v / 2 - l e - v dy = ( 1 - 2 1) 


-v/2 


ya que la ultima integral es igual a T{v/2). 

Aunque el metodo de transformacion de variables brinda una forma eficaz para 
encontrar la distribucion de una funcion de diversas variables, hay un procedimiento 
alternative y que a menudo se prefiere, cuando la funcion en cuestion es una com- 
bination lineal de variables aleatorias independientes. Este procedimiento utiliza 
las propiedades de las funciones generadoras de momentos que se incluyen en los 
siguientes cuatro teoremas. Para conservar el alcance matematico de este libro, es- 
tablecemos el teorema 7.7 sin demostracion. 
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Teorem a 7.7: 

Teore ma 7.8: 

Prueba: 
Teorem a 7.J): 
Prueba: 

Teorema 7.10: 


Prueba: 


(Teorema de unicidad) Sean X y Y dos variables aleatorias con funciones 
generadoras de momentos Mx{t) y Myii), respectivamente. Si Mx(t) = My(t) 
para todos los valores de t, entonces X y Y tienen la misma distribution de pro- 
babilidad. 


M x+a (t) = e at M x {t) . 


M x +a(t ) = E[e t(x+a ^] = e at E(e tx ) = e at M x {t). 


M aX (t) = M x {at). 


M aX (t ) = E[e t( - aX ^} = E[e^ x ] = M x {at). 


Si X\, X‘ 2 , , X n son variables aleatorias independientes con funciones generado- 
ras de momentos M Xl {t), Mx 2 (t), • • • , Mx n (t), respectivamente, y Y — X\ + Xi 
+ ■ ■ ■ + X n , entonces, 

My{t) = M Xl (i)Mx 2 (t) ••• M Xn (t). 


Para el caso continuo 


M Y (t) 


E{e tY ) = E[e t( - Xl+X2+ ' +Xn) ] 



X 2 , . . . , x n ) dx 1 dx 2 ■ ■ ■ dx n . 


Como las variables son independientes, tenemos 

f(x 1 ,X 2 , ...,X n ) = fl(xi)f 2 (x 2 ) ■ ■■fn(x n ) 


y entonces 

/ oo poo poo 

e tXl fi(x 1 )dx 1 e tX2 f 2 (x 2 ) dx 2 ■ ■ ■ e tXn f n (x n ) dx n 

-OO J— OO J— oo 

= M Xl (t)Mx 2 (t) ■ ■ ■ M Xn (t). 

La demostracion para el caso discreto se obtiene de manera similar, reemplazando 
las integrales con sumatorias. 

Los teoremas 7.7 a 7.10 son fundamentales para entender las funciones genera- 
doras de momentos. A continuation se presenta un ejemplo como ilustracion. Hay 
muchas situaciones en que necesitamos conocer la distribution de la suma de las va- 
riables aleatorias. Podemos utilizar los teoremas 7.7 y 7.10, asi como el resultado del 
ejercicio 7.19 que sigue de esta seccion, para encontrar la distribucion de una suma 
de dos variables aleatorias independientes de Poisson, con funciones generadoras de 
momentos dadas por 

M Xl (t) Y M X2 (t) = e^ t - 1 \ 
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respectivamente. De acuerdo con el teorema 7.10, la funcion generadora de momen- 
tos de la variable aleatoria Y\ = X\ + X 2 es 

M Yl (t) = M Xl {t)Mx 2 (t ) = e^-iW 6 *- 1 ) = e^i+^FY-i) 

que de inmediato identificamos como la funcion generadora de momentos de una 
variable aleatoria que tiene una distribution de Poisson con el parametro p\ + p 2 . 
Por ello, de acuerdo con el teorema 7.7, de nuevo concluimos que la suma de dos 
variables aleatorias independientes que tienen distribuciones de Poisson, con para- 
metros pi y p 2 , tiene una distribution de Poisson con parametro pi + p 2 - 


Combinaciones lineales de variables aleatorias 

En estadtstica aplicada a menudo se necesita conocer la distribucion de probabilidad 
de una combination lineal de variables aleatorias normales independientes. Obten- 
gamos la distribucion de la variable aleatoria Y = a±X\ + 0,2 X 2 cuando X\ es una 
variable normal con media p\ y varianza af y X 2 tambien es una variable normal, 
pero independiente de X\, con media P 2 y varinza a\. Primero, por el teorema 7.10, 
encontramos 


M Y (t) = M aiXl (t)M a 2 x 2 (t), 

y despues, usando el teorema 7.9, 

My it) = M Xl (a\t)M X2 {a 2 t). 

A1 sustituir a\t por t, y despues 02 t por t, en una funcion generadora de momentos 
de la distribucion normal que se deriva en el ejemplo 7.7, tenemos 

My(t) — exp(aipit + a\a\t 2 /2 + a 2 p 2 t + ci^a^t 2 ^) 

= exp[(aipi + a 2 p 2 )t + (alcrf + a|cr|)i 2 /2], 

que reconocemos como la funcion generadora de momentos de una distribucion que 
es normal con media a\p\ + a 2 p 2 y varianza afaf + a^cr 2 . 

Para generalizar al caso de n variables normales independientes, establecemos el 
siguiente resultado. 


Si Xi, X 2 , ■ ■ ■ , X n son variables aleatorias independientes que tienen distribucio- 
nes normales con medias pi, p 2 , ■ ■ ■ , p n y varianzas a 2 , cr|, . . . , cr^, respectivamen- 
te, entonces la variable aleatoria 

y — 0 , 1 X 1 + a 2 X 2 4- • 

-(- CL n X n 


tiene una distribucion normal con media 



Uy = CL 1 P 1 -I- a 2 p 2 + • ■ 

+ CL n f-L n 


y varianza 

2 2 2 , 22 

<jy = a\a\ + a2°2 + ' 

. 2 2 



Ahora queda claro que la distribucion de Poisson y la distribucion normal tienen 
una propiedad reproductiva, en el sentido de que la suma de variables aleatorias 
independientes que tengan cualquiera de estas distribuciones es una variable alea- 
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Teorema 7.12: 


Prueba: 


Corolario 7.1: 


toria que tambien tiene el mismo tipo de distribution. La distribution chi cuadrada 
tambien posee esta propiedad reproductiva. 


Si Ai, X 2 , . . . , X n son variables aleatorias mutuamente independientes que tienen, 

respectivamente, distribuciones chi cuadrada con v\, v 2 , . 
entonces la variable aleatoria 

. . , v n grados de libertad, 

A = Ai + X 2 + • • • + X n 


tiene una distribucion chi cuadrada con v = Vi + v 2 + ■ ■ 

• v n grados de libertad. 


Por el teorema 7.10, 


M\{t) = Mx x {t) Mx 2 (t) ■ ■ ■ 


Del ejemplo 7.8, 


= (1-2 t)~ v ^ 2 , i= 1,2, 

Por lo tanto, 

M Y {t) = (1 - 2t)~ Vl/2 (l - 2t)~ V2/2 •■•(! — 2 t)~ Vn/2 
= (1 — 2t )-( Vl+V2 ^ — |_ ' u '*)/ 2 

que reconocemos como la funcion generadora de momentos de una distribution chi 
cuadrada con v = Vi + v 2 + ■ — h v„ grados de libertad. 


Si Xi, X 2 , . . . , X n son variables aleatorias independientes que tienen distributio- 
ns normales identicas con media p y varianza cr 2 , entonces la variable aleatoria 

Xi fi 
a 

tiene una distribucion chi cuadrada con v = n grados de libertad. 



Este corolario es una consecuencia inmediata del ejemplo 7.5, que establece que 
cada una de las n variables aleatorias independientes (X t — /x)/er] , i = 1,2, ... ,n, 
tiene una distribucion chi cuadrada con 1 grado de libertad. Este corolario es muy 
relevante. Establece una relation entre la muy importante distribucion chi cuadrada 
y la distribucion normal. Tambien clebe proporcionar al lector una idea clara de lo 
que queremos clecir con el parametro que denominamos grados de libertad. Confor- 
me avancemos en los capitulos siguientes, la notion de grados de libertad jugara un 
papel de importancia creciente. Del corolario 7.1 vemos que si Z\, Z 2 , , Z n son 

n 

variables aleatorias normales estandar independientes, entonces Z 2 tiene una 

*= l 

distribucion chi cuadrada y el parametro unico, v, los grados de libertad, es n, el 
numero de variables aleatorias normales estandar. Ademas, si cada variable alea- 
toria normal en A,, en el corolario 7.1, tiene cliferentes media y varianza podemos 
tener el siguiente resultado. 
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Corolario 7.2: 


Si X\, X 2 , . . . , X n son variables aleatorias independientes y X t sigue una distribu- 
tion normal con media pi y varianza of para i = 1 , 2, . . . , n, entonces, la variable 
aleatoria 



tiene una distribution chi cuadrada con v = n grados de libertad. 


Ej ercicios 


7.1 Sea X una variable aleatoria con probabilidad 

f(x) = / 5’ * = b 2, 3, 

\0, en cualquier caso. 

Encuentre la distribution de probabilidad de la varia- 
ble aleatoria Y= 2X — 1. 

7.2 Sea X una variable aleatoria binomial con distri- 
bution de probabilidad 


Muestre que la variable aleatoria Y = — 21n X tiene una 
distribution chi cuadrada con 2 grados de libertad. 

7.6 Dada la variable aleatoria X con distribution de 
probabilidad 

f(\_f 2x, 0 < x < 1, 

\0, en cualquier caso, 


/w= Jm§n§r*> *=<>,1,2,3, 

1 0, en cualquier caso. 

Encuentre la distribution de probabilidad de la varia- 
ble aleatoria Y — X 2 . 


encuentre la distribution de probabilidad de Y = 8A' 3 . 

7.7 La velocidad de una molecula en un gas uniforme 
en equilibrio es una variable aleatoria V, cuya distribu- 
tion de probabilidad esta dada por 


7.3 Sean X\ y Xi variables aleatorias discretas con la 
distribution multinomial conjunta 


f(x i,x 2 ) 


Xl,X2, 2 — X\ — X2 


4 ) ^3 ) \12 ) 


2—x\ —X 2 


para X\ = 0, 1, 2; *2 = 0, 1, 2; *1 + *2 < 2; y cero 
en cualquier otro caso. Encuentre la distribution de 
probabilidad conjunta de Y± = X\ + A '2 y I 2 = Ai 

- a 2 . 

7.4 Sean X\ y A 2 variables aleatorias discretas con la 
distribution de probabilidad conjunta 


f{v) = 


kv 2 e 

0, 


v > 0, 

en cualquier caso, 


donde k es una constante adecuada y b depende de 
la temperatura absoluta y de la masa de la molecula. 
Encuentre la distribution de probabilidad de la energfa 
cinetica de la molecula W, donde W = mV 2 12. 

7.8 La utilidad de un distribuidor, en unidades de 
$5000, sobre un automovil nuevo esta dada por Y = 
A' 2 , donde X es una variable aleatoria que tiene la 
funcion de densidad 


f(x !,X 2 ) 


r ®!|a, XI = 1,2; x 2 = 1,2,3, 
\0, en cualquier caso. 


f 2(1 — x), 0 < x < 1, 

(0, en cualquier caso. 


Encuentre la distribution de probabilidad de la varia- 
ble aleatoria Y= A 1 X 2 . 

7.5 Si X tiene la distribution de probabilidad 

f( x ) = J 1 ’ 0 < x < !> 

(0, en cualquier caso. 


a) Encuentre la funcion de densidad de probabilidad de 
la variable aleatoria Y. 

b) Usando la funcion de densidad de Y encuentre la 
probabilidad de que la utilidad sea menor que $500 
sobre el siguiente automovil nuevo que venda este 
distribuidor. 
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7.9 El periodo hospitalario, en di'as, para pacientes 
que siguen un tratamiento para cierto tipo de enfer- 
medad del rinon es una variable aleatoria Y = X + 4, 
donde A' tiene la funcion de densidad 

/ ( x) = /(7W> X>0 ’ 

I 0, en cualquier otro caso. 

a) Encuentre la funcion de densidad de probabilidad de 
la variable aleatoria Y. 

b) Con la funcion de densidad de Y, encuentre la pro- 
babilidad de que el periodo hospitalario para un pa- 
ciente que sigue este tratamiento exceda los ocho 
di'as. 


Si la resistencia varfa independientemente de la co- 
rriente de acuerdo con la distribution de probabilidad 

/ \ = f 2r > 0 < r < 1, 

\0, en cualquier otro caso, 

encuentre la distribution de probabilidad para la po- 
tencia W = I 2 R watts. 

7.14 Sea A' una variable aleatoria con distribution 
de probabilidad 

-1 < x < 1, 

0, en cualquier otro caso. 


7.10 Las variables aleatorias X y Y. que representan 
los pesos de cremas y chiclosos en cajas de un kilo- 
gramo de chocolates, que contienen una combination 
de cremas, chiclosos y envinados, tienen la funcion de 
densidad conjunta 


Encuentre la distribucion de probabilidad de la varia- 
ble aleatoria Y = X 2 . 

7.15 Si X tiene la distribucion de probabilidad 


{ 24 xy, 0 < x < 1 , 0 < 1 / < 1 , 
x + y < 1, 

0, en cualquier otro caso. 

a) Encuentre la funcion de densidad de probabilidad de 
la variable aleatoria Z — X + Y. 

b) Usando la funcion de densidad de Z , encuentre la 
probabilidad de que en una caja dada la suma de las 
cremas y los chiclosos sea al menos 1/2, pero menos 
que 3/4 del peso total. 

7.11 La cantidad de queroseno, en miles de litros, en 
un tanque al initio de cualquier dfa es una cantidad 
aleatoria Y. de la cual una cantidad aleatoria X se ven- 
de durante ese dfa. Suponga que la funcion de densidad 
conjunta de estas variables esta dada por 

f (x,y) = { 2 ’ 0 <x <y ; °<y< i. 

1^0, en cualquier otro caso. 

Encuentre la funcion de densidad de probabilidad para 
la cantidad de queroseno que queda en el tanque al final 
del dfa. 


7.12 Sean Ai y A '2 variables aleatorias independientes 
que tienen cada una la distribucion de probabilidad 

f(x) = \ e X ' X > °’. 

0, en cualquier otro caso. 

Muestre que las variables aleatorias Y\ y Y 2 son inde- 
pendientes cuando Y\ = Ai + .A 2 y I 2 = X\j(X\ + A 2 ). 


f 2(x + l) — 1 ^ rr ^ 9 

f(x) = < 9 ’ 

[ 0, en cualquier otro caso. 

Encuentre la distribucion de probabilidad de la varia- 
ble aleatoria Y = X 2 . 

7.16 Muestre que el r-esimo momenta alrededor del 
origen de la distribucion gamma es 


' /3 r r(a + r) 

Mr “ F(a) ‘ 

[. Sugerencia : Sustituya y = x/(3 en la integral que defi- 
ne y r ' y despues utilice la funcion gamma para evaluar 
la integral.] 

7.17 Una variable aleatoria A' tiene la distribucion 
uniforme discreta 



x = 1,2,... ,fc, 
en cualquier otro caso. 


Muestre que la funcion generadora de momentos de 
X es 


M x (t) 


e*(l — e kt ) 
k(l — e*) 


7.18 Una variable aleatoria X tiene la distribucion 
geometrica g(x-, p) = pq x para x = 1, 2, 3, Mues- 

tre que la funcion generadora de momentos de X es 


7.13 Una corriente de I amperes que fluye a traves 
de una resistencia de R ohms varfa de acuerdo con la 
distribucion de probabilidad 

f(i) = i" 6 ^ 1 “ *)> 0<i<f, 

\0, en cualquier otro caso. 


M x {t) = P£ , t < In q, 

1 — qe f 

y despues use Mx(t) para encontrar la media y la va- 
rianza de la distribucion geometrica. 
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7.19 Una variable aleatoria X tiene la distribution de 
Poisson p(x; p) = e~^p x /x\ para x = 0, 1, 2, . . . Mues- 
tre que la funcion generadora de momentos de X es 


7.22 Mediante la expansion de e tx en una serie de 
Maclaurin y la integration termino por termino, mues- 
tre que 


M x (t) = e M(et_1) . 

Usando Mx(t), encuentre la media y la varianza de la 
distribucion de Poisson. 

7.20 La funcion generadora de momentos de cierta 
variable aleatoria de Poisson X esta dada por 


M x (t) = j 


e tx f(x) dx 


'l ' t V 

= 1 + pt + p 2 -^ + ' ' ' + + 


M x (t) = e^-V. 

Encuentre P(p — 2 a < X < p + 2a). 

7.21 Con la funcion generadora de momentos del 
ejemplo 7.8, muestre que la media y la varianza de la 
distribucion chi cuadrada con v grados de libertad son, 
respectivamente, v y 2v. 


7.23 Si tanto X como Y, distribuidas de manera in- 
dependiente, siguen distribuciones exponenciales con 
parametro medio 1, encuentre las distribuciones de 

o) U = X + Y, y 

b) v+ x/(x + 10 - 



Capftulo 8 

Distribuciones de muestreo 
fundamentales y descripciones de datos 


8.1 Muestreo aleatorio 

El resultado de un experimento estadi'stico se puede registrar como un valor nume- 
rico o como una representacion descriptiva. Cuando se lanza un par de dados y el 
total es el resultado de interes, registramos un valor numerico. No obstante, si a los 
estudiantes de cierta escuela se les hacen pruebas de sangre y el tipo sangufneo es 
de interes, entonces una representacion descriptiva podria ser la mas util. La sangre de 
un individuo se puede clasificar de 8 maneras. Puede ser AB, A, B u O, con un signo 
mas o uno menos, lo cual depende de la presencia o ausencia del antigeno Rh. 

En este capftulo nos enfocamos en el muestreo de distribuciones o poblaciones, y 
estudiamos cantidades tan importantes como la media de la muestra y la varianza 
de la muestra, que son de importancia fundamental para los capftulos siguientes. 
Ademas, intentamos dar al lector una introduction al papel que jugaran la media y 
la varianza de la muestra en los proximos capftulos sobre inferencia estadfstica. El 
uso de las computadoras modernas de alta velocidad permite al cientffico o al inge- 
niero aumentar enormemente su uso de la inferencia estadfstica formal con tecnicas 
graficas. La mayorfa de las veces la inferencia formal parece bastante arida, y quizas 
incluso abstracta para el profesional o el administrador que deseen que el analisis 
estadi'stico sea una gufa para la toma de decisiones. 

Poblacion y muestras 

Comenzamos esta section con la presentation de las nociones de poblaciones y mues- 
tras. Ambas se mencionan de forma extensa en el capftulo 1. Sin embargo, sera ne- 
cesario estudiarlas mas ampliamente aquf, en particular en el contexto del concepto 
de variables aleatorias. La totalidad de observaciones que nos interesan, de numero 
finito o infinito, constituye lo que llamamos poblacion. En el pasado el termino 
poblacion se referfa a observaciones que se obtenfan de estudios estadfsticos con per- 
sonas. En la actualidad, el estadi'stico utiliza la palabra para referirse a observaciones 
respecto de cualquier cuestion de interes, ya sea de grupos de personas, animales o 
todos los resultados posibles de algiin sistema biologico o de ingenierfa complicados. 
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Definition 8.1: 


Una poblacion consiste en la totalidad de las observaciones en las que estamos 
interesados. 


El numero de observaciones en la poblacion se define como el tamano de la po- 
blacion. Si en la escuela hay 600 estudiantes que clasificamos de acuerclo con su tipo 
sangufneo, decimos que tenemos una poblacion de tamano 600. Los numeros en las 
cartas de una baraja, las estaturas de los residentes de cierta ciudad y las longitudes 
de los peces en un lago especffico son ejemplos de poblaciones de tamano finito. En 
cada caso, el numero total de observaciones es un numero finito. Las observaciones 
que se obtienen al medir diariamente la presion atmosferica desde el pasado hasta 
el futuro, o todas las mediciones de la profundidad de un lago desde cualquier posi- 
tion concebible, son ejemplos de poblaciones cuyos tamahos son infinitos. Algunas 
poblaciones finitas son tan grandes que en teorfa las supondrfamos infinitas, lo cual 
es cierto si se considera la poblacion de la duration de cierto tipo de baterfa de al- 
macenamiento que se fabrica para su distribution masiva en todo el pafs. 

Cada observation en una poblacion es un valor de una variable aleatoria X que 
tiene alguna distribution de probabilidad f(x). Si se inspeccionan artfculos que sa- 
len de una lfnea de ensamble para buscar defectos, entonces cada observation en la 
poblacion podrfa ser un valor 0 o 1 de la variable aleatoria de Bernoulli X con dis- 
tribution de probabilidad 


b(x;l, p ) = p x q 1 x , x = 0, 1, 

donde 0 indica un artfculo no defectuoso y 1 indica uno defectuoso. Por supuesto, se 
supone que p, la probabilidad de que cualquier artfculo este defectuoso, permanece 
constante de una prueba a otra. En el experimento de tipo sangufneo la variable 
aleatoria X representa el tipo de sangre al tomar un valor del 1 al 8. A cada estu- 
diante se le asigna uno de los valores de la variable aleatoria discreta. Las duracio- 
nes de las baterfas de almacenamiento son valores que toma una variable aleatoria 
continua que quiza tiene una distribucion normal. De ahora en adelante, cuando 
nos refiramos a una “poblacion binomial”, a una “poblacion normal” o, en general, 
a la “poblacion f(x)”, aludiremos a una poblacion cuyas observaciones son valores de 
una variable aleatoria que tiene una distribucion binomial, una distribucion normal 
o la distribucion de probabilidad f(x). Por ello, a la media y a la varianza de una 
variable aleatoria o distribucion de probabilidad tambien se les denomina la media 
y la varianza de la poblacion correspondiente. 

En el campo de la inferencia estadfstica el estadfstico se interesa en llegar a 
conclusiones que tienen que ver con la poblacion, cuando es imposible o poco prac- 
tico observar todo el conjunto de observaciones que constituyen la poblacion. Por 
ejemplo, al intentar determinar la longitucl promedio de la vida de cierta marca de 
bombilla de luz, serfa imposible probar todas las bombillas si tenemos que venderlas. 
Los costos desmesurados tambien serfan un factor prohibitive para estudiar a toda 
la poblacion. Por lo tanto, debemos depender de un subconjunto de observaciones de la 
poblacion para ayudarnos a realizar inferencias con respecto a la misma poblacion. 
Esto nos lleva a considerar la notion de muestreo. 


Definicion 8.2: 


Una muestra es un subconjunto de una poblacion. 


Si nuestras inferencias a partir de la muestra para la poblacion tienen que ser vali- 
das, debemos obtener muestras que sean representativas de la poblacion. Con mucha 
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frecuencia nos sentimos tentados a elegir una muestra seleccionando a los miembros 
mas convenientes de la poblacion. Tal procedimiento podria conducir a inferencias 
erroneas con respecto a la poblacion. Cualquier procedimiento de muestreo que 
produzca inferencias que sobreestimen, o subestimen, de forma consistente alguna 
caracteristica de la poblacion se dice que esta sesgado. Para eliminar cualquier po- 
sibilidad de sesgo en el procedimiento de muestreo, es deseable elegir una muestra 
aleatoria, en el sentido de que las observaciones se realicen de forma independiente 
y al azar. 

Para seleccionar una muestra aleatoria de tamano n de una poblacion f(x ), de- 
finamos la variable aleatoria X t , i = 1 , 2 , . . . , n, que represente la i-esima medicion 
o valor de la muestra que observemos. Las variables aleatorias X\, X 2, . . . , X n cons- 
tituiran entonces una muestra aleatoria de la poblacion fix) con valores numericos 
xi, X2, ■ ■ ■ , x n si las mediciones se obtienen al repetir el experimento n veces indepen- 
dientes bajo esencialmente las mismas condiciones. Debido a las condiciones identi- 
cas bajo las que se seleccionan los elementos de la muestra, es razonable suponer que 
las n variables aleatorias X\, X2, ■ ■ ■ , X n son independientes y que cada una tiene la 
misma distribucion de probabilidad fix). Es decir, las distribuciones de probabili- 
dad de X\, X2, ■ ■ ■ , X n son, respectivamente, f(x 1), f(x 2), . . . , f(x n ) y su distribucion 
de probabilidad conjunta es f(x 1, X2, ■ ■ ■ , x n ) = f(x 1) f(x 2) • • ■ f{x n ). El concepto de 
muestra aleatoria se describe de manera formal en la siguiente definicion. 


Definicion 8.3: 


Sean X2, ■ ■ ■ , X n variables aleatorias independientes n, cada una con la misma 
distribucion de probabilidad f{x). Definimos X\, X2, ■ ■ ■ , X n como una muestra 
aleatoria de tamano n de la poblacion f{x) y escribimos su distribucion de pro- 
babilidad conjunta como 

fix 1, X2,..., x„) = fix 1 ) fix 2 ) • ■ • fix n ). 


Si se realiza una selection aleatoria de n = 8 baterias de almacenamiento de 
un proceso de fabrication, que mantiene las mismas especificaciones, y registramos 
la duration de cada bateria con la primera medicion X\ como un valor de X\, la 
segunda medicion X2 como un valor de X2, etcetera, entonces, aq, X2, ■ ■ ■ , Xs son 
los valores de la muestra aleatoria Xj, X 2 , ... , X$ Si suponemos que la poblacion 
de duraciones de las baterias es normal, los valores posibles de cualquier X ; , i = 1 , 
2 , . . . , 8 , seran precisamente los mismos que los de la poblacion original y, por ello, 
Xi tiene la misma distribucion normal identica que X. 


8.2 Algunos estadisticos importantes 

Nuestro principal proposito al seleccionar muestras aleatorias consiste en obtener 
informacion acerca de los parametros desconocidos de la poblacion. Suponga, por 
ejemplo, que cleseamos llegar a una conclusion con respecto a la proportion de per- 
sonas bebedoras de cafe en Estados Unidos que prefieren cierta marca de cafe. Seria 
imposible preguntar a cada bebedor de cafe estadounidense para calcular el valor del 
parametro p que representa la proportion de la poblacion. En cambio, se selecciona 
una muestra aleatoria grande y se calcula la proportion p de personas en esta mues- 
tra que prefieren la marca de cafe en cuestion. El valor p se utiliza ahora para hacer 
una inferencia con respecto a la proportion p vercladera. 

Ahora, p es una funcion de los valores observados en la muestra aleatoria; como es po- 
sible tomar muchas muestras aleatorias a partir de la misma poblacion, esperariamos 
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que p variara algo de una muestra a otra. Es decir, p es un valor de una variable 
aleatoria que representamos con P. Tal variable aleatoria se llama estadfstico. 


Definicion 8.4: 


Cualquier funcion de las variables aleatorias que forman una muestra aleatoria se 
llama estadfstico. 


Tendencia central en la muestra 

En el capitulo 4 presentamos los dos parametros p y ct 2 , que miden el centro de 
localization y la variabilidad de una distribution de probabilidad. Estos son para- 
metros poblacionales constantes y de ninguna manera se ven afectados o influidos 
por las observaciones de una muestra aleatoria. Defrniremos, sin embargo, algunos 
estadfsticos importantes que describen las medidas correspondientes de una muestra 
aleatoria. Los estadfsticos que, por lo general, se utilizan mas para medir el centro de 
un conjunto de datos, acomodados en orden de magnitud, son la media, la media- 
na y la moda. Los tres estadfsticos se expusieron en el capitulo 1; no obstante, la 
media se define aquf de nuevo. 


Definicion 8.5: 


Si Xp X 2 , . . . , X n representan una muestra aleatoria de tamano n, entonces la 
media de la muestra se define mediante el estadfstico 


n ' 


i= 1 


n 

Observe que el estadfstico x toma el valor x = - ^ Xi cuando X\ toma el va- 

i= 1 

xi, X 2 toma el valor X 2 y asf sucesivamente. En la practica al valor de un estadfstico, 
por lo general, se le da el mismo nombre del estadfstico. Por ejemplo, el termino me- 
dia de la muestra se aplica tanto al estadfstico X como a su valor calculado x. 

Hay una referenda previa a la media de la muestra que se hizo en el capitulo 1. 
Se dieron ejemplos para ilustrar el calculo de la media de una muestra. 

Como se expuso en el capitulo 1, una medida de tendencia central en la muestra 
no da por sf misma una indication clara de la naturaleza de la muestra. De manera 
que tambien debe considerarse una medicion de variabilidad en la muestra. 


La varianza de la muestra 

La variabilidad en la muestra deberfa indicar como se dispersan las observaciones 
a partir del promedio. Se remite al lector al capitulo 1 para un analisis mas amplio. 
Es posible tener dos conjuntos de observaciones con las mismas media o mediana, y 
que difieran de manera considerable en la variabilidad de sus mediciones alrededor 
del promedio. 

Considere las siguientes mediciones, en litros, para dos muestras de jugo de na- 
ranja envasado por las companfas A y B: 


Muestra A 

0.97 

1.00 

0.94 

1.03 

1.06 

Muestra B 

1.06 

1.01 

0.88 

0.91 

1.14 


Ambas muestras tienen la misma media, 1.00 litros. Es muy evidente que la com- 
panfa A envasa el jugo de naranja con un contenido mas uniforme que la B. Decimos 
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Definicion 8.6: 


Ejemplo 8.1: 


Solucion: 


Teorema 8.1: 


que la variabilidad o la dispersion de las observaciones del promedio es menor para 
la muestra A que para la muestra B. Por lo tanto, al comprar jugo de naranja, ten- 
driamos mas confianza de que el envase seleccionado este mas cerca del promedio 
anunciado si lo compramos a la compania A. 

En el capitulo 1 presentamos varias mediciones de la variabilidad de una muestra 
como la varianza de la muestra y el rango de la muestra. En este capitulo nos 
enfocaremmos en la varianza de la muestra. 


Si Xi, X 2 , . . . , X n representan una muestra aleatoria de tamano n, entonces la va- 
rianza de la muestra se define con el estadistico 


S 2 


1 


n — 1 


Epq - *) 2 - 

i= 1 


El valor calculado de S' 2 para una muestra dada se denota con s 2 . Observe que 
S' 2 se define esencialmente como el promedio de los cuadrados de las desviaciones de 
las observaciones de su media. La razon para utilizar n — 1 como divisor, en vez de la 
eleccion mas obvia n, quedara mas clara en el capitulo 9. 


Una comparacion de los precios de cafe en cuatro tiendas de abarrotes, seleccionadas 
al azar, en San Diego mostro aumentos en comparacion con el mes anterior de 12, 
15, 17 y 20 centavos para una bolsa de 1 libra. Encuentre la varianza de esta mues- 
tra aleatoria de aumentos de precio. 

Al calcular la media de la muestra, obtenemos 

12+15 + 17 + 20 

x = = 16 centavos. 

4 

Por lo tanto, 


= o Efo _ 16 ) 2 = 


(12 - 16) 2 + (15 - 16) 2 + (17 - 16) 2 + (20 - 16) 2 


i= 1 


(— 4) 2 + (— l) 2 + (l) 2 + (4) 2 


34 

T' 


Mientras que la expresion para la varianza de la muestra de la definicion 8.6 
ilustra mejor que S 2 es una medida de variabilidad, una expresion alternativa que 
en verdad tiene algun merito, de manera que el lector deberia estar consciente de 
ello. El siguiente teorema contiene tal expresion. 


Si S 2 es la varianza de una muestra aleatoria de tamano n, podemos escribir 


S 


n(n — 1) 


E A ' 2 E- v - 


i= 1 




s 2 = 


1 


n — 1 


E( x * - x ) 2 

i= 1 


Prueba: Por definicion, 
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1 

n — 1 


n 

- 2XX i + X 2 ) 



\_i=l 


2X X t + nX 2 

i= 1 


_ n 

A1 reemplazar X por X por Y x i/ n Y multiplicar el numerador y el denominador 

■ 

por n, obtenemos la formula de calculo mas util del teorema 8.1. 


Definition 8.7: 


La desviacion estandar de la muestra, que se denota con .S', es la ralz cuadra- 
da positiva de la varianza de la muestra. 


Ejemplo 8.2:1 Encuentre la varianza de los datos 3, 4, 5, 6, 6 y 7, que representan el numero de 
truchas atrapadas por una muestra aleatoria de 6 Pescadores el 19 de junio de 1996, 
en el lago Muskoka. 

6 6 

Solucion: Encontramos que Y x i = 171, Y x i = 31, n = 6. De aqul, 

i=i 7=1 

= M5) [<6)(171) “ <31)2] = f' 

Por lo que la desviacion estandar de la muestra s = \J 13/6 = 1.47. 


Ej ercicios 

8.1 Defina las poblaciones adecuadas a partir de las 
cuales se seleccionaron las siguientes muestras: 

a) Se llamo por telefono a personas de 200 casas en la 
ciudad de Richmond y se les pidio nombrar al candi- 
date por el que votarfan en la election para la mesa 
directiva de la escuela. 

b) Se lanzo 100 veces una moneda y se registraron 34 
cruces. 

c) Se probaron 200 pares de un nuevo tipo de calzado 
deportivo en un torneo de tenis profesional y, en 
promedio, duraron cuatro meses. 

d) En cinco ocasiones diferentes tomo a una abogada 
21, 26, 24, 22 y 21 minutes manejar desde su casa 
en los suburbios hasta su oficina en el centro de la 
ciudad. 

8.2 El numero de multas emitidas por infracciones 
de transito por 8 oficiales estatales durante el fin de 
semana del dfa en Conmemoracion de los Caidos es 5, 
4, 7, 7, 6, 3, 8 y 6. 

a) Si estos valores representan el numero de multas 
levantadas por una muestra aleatoria de 8 oficiales 
estatales del condado de Montgomery en Virginia, 
defina una poblacion adecuada. 

b) Si los valores representan el numero de multas le- 
vantadas por una muestra aleatoria de 8 oficiales 
estatales de Carolina del Sur, defina una poblacion 
adecuada. 


8.3 El numero de respuestas incorrectas en un exa- 
men de competencia de verdadero-falso para una mues- 
tra aleatoria de 15 estudiantes se registraron de la si- 
guiente manera: 2, 1, 3, 0, 1, 3, 6, 0, 3, 3, 5, 2, 1, 4 y 
2. Encuentre 

a) la media; 

b) la mediana; 

c) la moda. 

8.4 Las longitudes de tiempo, en minutos, que 10 pa- 
cientes esperan en un consultorio medico antes de reci- 
bir tratamiento se registraron como sigue: 5, 11, 9, 5, 
10, 15, 6, 10, 5 y 10. Trate los datos como una muestra 
aleatoria y encuentre 

a) la media; 

b) la mediana; 

c) la moda. 

8.5 Los tiempos de reaction para una muestra aleato- 
ria de 9 individuos ante un estimulante se registraron 
como 2.5, 3.6, 3.1, 4.3, 2.9, 2.3, 2.6, 4.1 y 3.4 segundos. 
Calcule 

a) la media; 

b) la mediana. 
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8.6 De acuerdo con la escritora ecologista Jacqueli- 
ne Killeen, los fosfatos que contienen los detergentes 
de uso casero pasan directamente a traves de nuestros 
sistemas de desagiie, ocasionando que los lagos se con- 
viertan en pantanos, y que a final de cuentas se sequen 
y se vuelvan desiertos. Los siguientes datos muestran 
la cantidad de fosfatos por carga de lavado, en gramos, 
para una muestra aleatoria de diversos tipos de deter- 
gentes que se usan de acuerdo con las instrucciones 
prescritas: 

Detergente de Fosfato por carga 

lavander?a (gramos) 


A & P Blue Sail 

48 

Dash 

47 

Concentrated All 

42 

Cold Water All 

42 

Breeze 

41 

Oxydol 

34 

Ajax 

31 

Sears 

30 

Fab 

29 

Cold Power 

29 

Bold 

29 

Rinso 

26 


Para los datos de fosfato dados, encuentre 

a) la media; 

b) la mediana: 

c) la moda. 

8.7 Una muestra aleatoria de empleados de una plan- 
ta de manufactura local prometieron los siguientes do- 
nativos, en dolares, al United Fund: 100, 40, 75, 15, 20, 
100, 75, 50, 30, 10, 55, 75, 25, 50, 90, 80, 15, 25, 45 y 
100. Calcule 

a) la media; 

b) la moda. 

8.8 Encuentre la media, la mediana y la moda para 
la muestra, cuyas observaciones, 15, 7, 8, 95, 19, 12, 8, 
22 y 14 representan el numero de dfas con incapacidad 
medica reportados en nueve declaraciones federates de 
impuesto sobre la renta. ^Que valor parece ser la mejor 
medicion del centra de nuestros datos? Explique las 
razones de su preferencia. 

8.9 Con referenda a la longitud de los tiempos que 
esperan 10 pacientes en un consultorio medico antes de 
recibir tratamiento en el ejercicio 8.4, encuentre 

a) el rango; 

b) la desviacion estandar. 

8.10 Con referencia a la muestra de tiempos de reac- 
tion para los nueve sujetos que reciben el estimulante 
en el ejercicio 8.5, calcule 


a) el rango; 

b) la varianza usando la formula de la definition 8.6. 

8.11 Con referencia a la muestra aleatoria de res- 
puestas incorrectas en un examen de competencia de 
verdadero-falso para los 15 estudiantes en el ejercicio 
8.3, calcule la varianza usando la formula 

a) de la definition 8.6; 

b) del teorema 8.1. 

8.12 El contenido de alquitran de ocho marcas de 
cigarrillos que se seleccionan al azar de la lista mas re- 
ciente publicada por la Comision de Comercio Federal 
es como sigue: 7.3, 8.6, 10.4, 16.1, 12.2, 15.1, 14.5 y 9.3 
miligramos. Calcule 

a) la media; 

b) la varianza. 

8.13 Los promedios de los puntos por grado de 20 
estudiantes universitarios del ultimo ano selecciona- 
dos al azar de una clase que se va a graduar son los si- 
guientes: 


3.2 

1.9 

2.7 

2.4 

2.8 

2.9 

3.8 

3.0 

2.5 

3.3 

1.8 

2.5 

3.7 

2.8 

2.0 

3.2 

2.3 

2.1 

2.5 

1.9 


Calcule la desviacion estandar. 

8.14 a) Muestre que la varianza de la muestra per- 
manece sin cambio, si se suma o se resta una cons- 
tante c a cada valor de la muestra. 

b) Muestre que la varianza de la muestra se hace c 2 
veces su valor original, si cada observation en la 
muestra se multiplica por c. 

8.15 Verifique que la varianza de la muestra 4, 9, 3, 
6, 4 y 7 es 5.1, y usando este hecho junto con los resul- 
tados del ejercicio 8.14, encuentre 

a) la varianza de la muestra 12, 27, 9, 18, 12 y 21; 

b) la varianza de la muestra 9, 14, 8, 11, 9 y 12. 

8.16 En la temporada 2004-2005 el equipo de futbol 
americano de la Universidad del Sur de California tuvo 
las siguientes diferencias de puntuacion para sus 13 
juegos disputados. 

11 49 32 3 6 38 38 30 8 40 31 5 36 

Encuentre 

a) la media de las diferencia de puntos; 

b) la mediana de las diferencias de puntos. 
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8.3 Presentation de datos y metodos graficos 

En el capitulo 1 presentamos al lector las distribuciones empiricas. La motivation es 
el uso de presentaciones creativas para extraer informacion acerca de las propieda- 
des de un conjunto de datos. Por ejemplo, los diagramas de tallo y hojas brindan al 
observador una imagen de la simetria y de otras propiedades de los datos. En este 
capitulo tratamos con muestras que, por supuesto, son agrupaciones de datos experi- 
mentales a partir de las cuales obtenemos conclusiones sobre las poblaciones. A me- 
nudo la apariencia de la muestra proporciona informacion acerca de la distribution 
de la que se toman los datos. Por ejemplo, en el capitulo 1 ilustramos la naturaleza 
general de pares de muestras con graficas de puntos que presentan una comparacion 
relativa entre la tendencia central y la variabilidad entre ambas muestras. 

En los capitulos siguientes, con frecuencia hacemos la suposicion de que la distri- 
bution es normal. La informacion grafica con respecto a la validez de esta suposicion 
se puede obtener de presentaciones como los diagramas de tallo y hojas y los histo- 
gramas de frecuencias. Ademas, en esta section presentaremos la notion de graficas 
de probabilidad normal y graficas de cuantiles. Estas graficas se utilizan en estudios 
que tienen grados de complejidad que varian, con el objetivo principal de que las 
graficas den una verification diagnostica sobre la suposicion de que los datos vienen 
de una distribution normal. 

Podemos caracterizar el analisis estadistico como el proceso de extraer conclusio- 
nes acerca de los sistemas en presencia de la variabilidad del sistema. El intento de 
un ingeniero por aprender acerca de un proceso quimico a menudo se ve empanado 
por la variabilidad del proceso. Un estudio que implica el numero de articulos defec- 
tuosos en un proceso de production con frecuencia se hace mas dificil por la variabi- 
lidad en el metodo de fabrication de los articulos. En todo lo anterior, aprendimos 
acerca de las muestras y los estadfsticos que expresan el centro de localization y la 
variabilidad en la muestra. Tales estadfsticos ofrecen medidas simples, en tanto que 
una presentation grafica brinda informacion adicional en terminos de una imagen. 


Grafica de caja y extension o grafica de caja 

Otra presentation que es util para reflcjar propiedades de una muestra es la grafica 
de caja y extension, la cual encierra el rango intercuartil de los datos en una caja 
que tiene la mediana representada dentro. El rango intercuartil tiene como extremos 
el percentil 75 (cuartil superior) y el percentil 25 (cuartil inferior). Ademas de la caja 
se prolongan “extensiones” , que indican las observaciones alejadas en la muestra. 
Para muestras razonablemente grandes la presentation indica el centro de localiza- 
tion, la variabilidad y el grado de asimetrfa. 

Ademas, una variation denominada grafica de caja puede ofrecer al observador 
informacion con respecto a cuales observaciones son valores extremos, los cuales 
son observaciones que se consideran inusualmente alejadas de la masa de datos. Hay 
muchas pruebas estadfsticas disenadas para detectar valores extremos. Tecnicamen- 
te, se puede considerar que un valor extremo es una observation que representa un 
“evento raro” (existe una probabilidad pequena de obtener un valor tan alejado de 
la masa de datos). El concepto de valores extremos resurge en el capitulo 12 en el 
contexto del analisis de regresion. 

La informacion visual en las graficas de caja y extension y de caja no intenta ser 
una prueba formal de valores extremos. Mas bien, se ve como una herramienta de 
diagnostico. Mientras que la determination de cuales observaciones son valores ex- 
tremos varfa con el tipo de software que se emplee, un procedimiento comun consiste 
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en utilizar un multiplo del rango intercuartil. Por ejemplo, si la distancia desde 
la caja excede 1.5 veces el rango intercuartil (en cualquier direction) la observation 
se puede considerar un valor extremo. 


Ejemplo 8.3:1 Considere los datos del ejercicio 1.21 al final del capftulo 1 (pagina 29). Se midio el 
contenido de nicotina en una muestra aleatoria de 40 cigarrillos. Los datos se vuel- 
ven a presentar en la tabla 8.1. 


Tabla 8.1: Valores de nicotina para el ejemplo 8.3 


1.09 

1.92 

2.31 

1.79 

2.28 

1.74 

1.47 

1.97 

0.85 

1.24 

1.58 

2.03 

1.70 

2.17 

2.55 

2.11 

1.86 

1.90 

1.68 

1.51 

1.64 

0.72 

1.69 

1.85 

1.82 

1.79 

2.46 

1.88 

2.08 

1.67 

1.37 

1.93 

1.40 

1.64 

2.09 

1.75 

1.63 

2.37 

1.75 

1.69 



Nicotina 


Figura 8.1: Grafica de caja y extension para los datos de nicotina del ejercicio 1.21. 


La figura 8.1 muestra la grafica de caja y extension de los datos que describe las 
observaciones 0.72 y 0.85 como valores extremos moderados en la cola inferior; en 
tanto que la observation 2.55 es un valor extremo moderado en la cola superior. En 
este ejemplo el rango intercuartil es 0.365, y 1.5 veces el rango intercuartil es 0.5475. 
Por otro lado, la figura 8.2 presenta un diagrama de tallo y hojas. 


Ejemplo 8.4:1 Considere los datos de la tabla 8.2, que consisten en 30 muestras que miden el es- 
pesor de las “asas” de latas de pintura (vease el trabajo de Hogg y Ledolter en la 
bibliograffa). La figura 8.3 describe una grafica de caja y extension para este conjun- 
to asimetrico de datos. Observe que el bloque izquierdo es considerablemente mas 
grande que el bloque de la derecha. La mediana es 35. El cuartil inferior es 31, mien- 
tras que el superior es 36. Note tambien que la observation alejada de la derecha 
esta mas lejos de la caja que la observation alejada de la izquierda. No hay valores 
extremos en este conjunto de datos. 

Existen formas adicionales en las que las graficas de caja y extension y otras pre- 
sentaciones graficas ayudan al analista. Las muestras multiples se pueden comparar 
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The decimal point is 1 digit (s) to the left of the I 


7 

1 

2 

8 

1 

5 

9 1 

10 

1 

9 

11 1 

12 

1 

4 

13 

1 

7 

14 

1 

07 

15 

1 

18 

16 

1 

3447899 

17 

1 

045599 

18 

1 

2568 

19 

1 

0237 

20 

1 

389 

21 

1 

17 

22 

1 

8 

23 

1 

17 

24 

1 

6 

25 

1 

5 


Figura 8.2: Diagrama de tallo y hojas para los datos de nicotina. 


Tabla 8.2: Datos para el ejemplo 8.4 


Muestra Mediciones Muestra Mediciones 


1 

29 

36 

39 

34 

34 

16 

35 

30 

35 

29 

37 

2 

29 

29 

28 

32 

31 

17 

40 

31 

38 

35 

31 

3 

34 

34 

39 

38 

37 

18 

35 

36 

30 

33 

32 

4 

35 

37 

33 

38 

41 

19 

35 

34 

35 

30 

36 

5 

30 

29 

31 

38 

29 

20 

35 

35 

31 

38 

36 

6 

34 

31 

37 

39 

36 

21 

32 

36 

36 

32 

36 

7 

30 

35 

33 

40 

36 

22 

36 

37 

32 

34 

34 

8 

28 

28 

31 

34 

30 

23 

29 

34 

33 

37 

35 

9 

32 

36 

38 

38 

35 

24 

36 

36 

35 

37 

37 

10 

35 

30 

37 

35 

31 

25 

36 

30 

35 

33 

31 

11 

35 

30 

35 

38 

35 

26 

35 

30 

29 

38 

35 

12 

38 

34 

35 

35 

31 

27 

35 

36 

30 

34 

36 

13 

34 

35 

33 

30 

34 

28 

35 

30 

36 

29 

35 

14 

40 

35 

34 

33 

35 

29 

38 

36 

35 

31 

31 

15 

34 

35 

38 

35 

30 

30 

30 

34 

40 

28 

30 


de forma grafica. Las graficas de datos pueden sugerir relaciones entre variables. Las 
graficas ayudan en la detection de anomalfas o de observaciones de valores extremos 
en las muestras. 

Otro tipo de grafica que en particular podrfa ser util para caracterizar la natura- 
leza de un conjunto de datos es la grafica de cuantiles. Como en el caso de la grafica 
de caja y extension, se pueden utilizar las ideas basicas de la grafica de cuantiles 
para comparar muestras de datos , donde el objetivo del analista es encontrar dife- 
rencias. Ilustraciones adicionales de este tipo de utilization se daran en los capftulos 
siguientes, donde se estudia la inferencia estadfstica formal asociada con la compara- 
cion de las muestras. En ese momento se clemostraran estudios de caso, en los cuales 
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28 30 32 34 36 38 40 

Pintura 


Figura 8.3: Grafica de caja y extension para el espesor de las “asas” 
de latas de pintura. 

se expone al lector a la inferencia formal y a las graficas de diagnostico para el mis- 
mo conjunto de datos. 

Grafica de cuantiles 

El proposito de las graficas de cuantiles consiste en clescribir, en forma de muestra, 
la funcion de distribucion acumulada que se presento en el capftulo 3. 

Definition 8.8: Un cuantil de una muestra, q(f), es un valor para el que una fraccion especffica / 
de los valores de los datos es menor que o igual a q{f). 

Evidentemente, un cuantil representa una estimation de una caracterfstica de 
una poblacion o, mas bien, la distribucion teorica. La mediana de la muestra es 
(7(0.5). El percentil 75 (cuartil superior) es 9(0.75) y el cuartil inferior es g(0.25). 

Una grafica de cuantiles simplemente grafica los valores de los datos en el eje 
vertical contra una evaluation empirica de la fraction de observaciones excedidas 
por los valores de los datos. Para propositos teoricos esta fraccion se calcula con 



donde i es el orden de las observaciones cuando se clasifican de inferior a superior. 
En otras palabras, si denotamos las observaciones clasificadas como 

2 /( 1 ) < 2 /( 2 ) < 2 /( 3 ) < < 2/(n— 1) < 2/(n), 

entonces, la grafica de cuantiles describe una grafica de j/p) contra /,. En la figura 
8.4 se presenta la grafica de cuantiles para las asas de las latas de pintura analizadas 
con anterioridad. 

A diferencia de la grafica de caja y extension, la grafica de cuantiles realmente 
muestra todas las observaciones. Todos los cuantiles, incluidos la mediana y los cuan- 
tiles superior e inferior, se pueden aproximar de forma visual. Por ejemplo, facilmente 
observamos una mediana de 35 y un cuartil superior de alrededor de 36. Las indi- 
caciones de agrupaciones relativamente grandes alrededor de valores especfficos se 
indican por pendientes cercanas a cero; mientras que los datos escasos en ciertas 
areas producen pendientes mas abruptas. La figura 8.4 muestra la dispersion de da- 
tos de los valores 28 a 30, pero una densidad relativamente alta de 36 a 38. En los 
capftulos 9 y 10 proseguimos con las graficas de cuantiles mediante la ilustracion de 
formas utiles de comparacion de distintas muestras. 
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Figura 8.4: Grafica de cuantiles para los datos de latas de pintura. 

Deteccion de desviaciones de la normalidad 

Para el lector deberia ser algo evidente que la deteccion de un conjunto de datos vie- 
ne o no de una distribution normal que puede ser una herramienta importante para 
el analista de datos. Como indicamos anteriormente en esta section, con frecuencia 
hacemos la suposicion de que la totalidad o subconjuntos de las observaciones en un 
conjunto de datos son realizaciones de variables aleatorias normales independientes 
e identicamente distribuidas. Una vez mas, la grafica de diagnostico a menudo puede 
agregar (con fines de presentation) una prueba de la bondad del ajuste formal de los 
datos. Las pruebas de bondad del ajuste se estudian en el capitulo 10. Para el lector 
de un articulo o informe cientifico, la information de diagnostico resulta mucho mas 
clara, menos arida y quiza no aburrida. En los capitulos siguientes (9 a 13) nos enfo- 
camos de nuevo en los metodos de deteccion de desviaciones de la normalidad como 
un agregado de la inferencia estadistica formal. Estos tipos de graficas son utiles en 
la deteccion de los tipos de distribucion. En la elaboration de modelos y en el diseno 
de experimentos tambien hay situaciones en que las graficas se utilizan para detectar 
terminos o efectos del modelo que estan activos. En otras situaciones se utilizan 
para determinar si son razonables o no las suposiciones subyacentes hechas por el 
cientifico o por el ingeniero en la construction del modelo. En los capitulos 11, 12 
y 13 se incluyen muchos ejemplos con ilustraciones. La siguiente subsection brinda 
una presentation e ilustracion de una grafica de diagnostico que se llama grafica de 
cuantiles- cuantiles normales. 

Grafica de cuantiles-cuantiles normales 

La grafica de cuantiles-cuantiles normales toma ventaja de lo que se conoce acerca 
de los cuantiles de la distribucion normal. La metodologia incluye una grafica de los 
cuantiles empiricos recien presentados contra el cuantil correspondiente de la dis- 
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tribucion normal. Entonces, la expresion para un cuantil de una variable aleatoria 
N(n, a) es muy complicada. Sin embargo, una buena aproximacion esta dada por 

M + <t{4.91[/ 0 ' 14 — (1 — /) 014 ]}- 

La expresion entre las Haves (el multiplo de <j) es la aproximacion para el cuantil 
correspondiente para la variable aleatoria N( 0, 1), es decir, 

Qo,i(f) = 4.91[/° 14 — (1 — /) 014 ]- 


Definition 8.9: 


La grafica de cuantiles-cuantiles normales es una grafica de ye,) (observacio- 

i— - 

nes ordenadas contra qo,i(fi), donde f r = — 


Una relacion cercana a una lrnea recta sugiere que los datos provienen de una dis- 
tribucion normal. La intersection en el eje vertical es una estimation de la media 
de la poblacion /i y la pendiente es una estimacion de la desviacion estandar <r. La 
figura 8.5 muestra una grafica de cuantiles-cuantiles normales para los datos de las 
latas de pintura. 



Cuantil normal estandar, q 0 /l (f) 


Figura 8.5: Grafica de cuantiles-cuantiles normales para los datos de la pintura. 


Graficacion de la probabilidad normal 

Observe como la desviacion de la normalidad se vuelve clara a partir de la apariencia 
de la grafica. La asimetrfa que exhiben los datos tiene como resultado cambios en 
la pendiente. 
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Las ideas de graficacion de la probabilidad se manifiestan en graficas diferentes 
de la grafica de cuantiles-cuantiles normales que se presento aquf. Por ejemplo, 
se pone mucha atencion a la llamada grafica de probabilidad normal, donde 
el eje vertical contiene / graficada en un papel especial y la escala utilizada da 
como resultado una linea recta, cuando se grafica contra los valores de los datos 
ordenados. Ademas, una grafica alternativa utiliza los valores esperados de las 
observaciones clasificadas para la distribucion normal y grafica las observaciones 
clasificadas contra su valor esperado, con la suposicion de datos de N(p, o). Una 
vez mas, la lfnea recta es el criterio grafico que se emplea. Continuamos para sugerir 
que tener como base los metodos analfticos graficos que se desarrollan en esta sec- 
cion ayuda en la ilustracion de los metodos formales de distincion entre muestras 
diferentes de datos. 


Ejemplo 8.5:1 Considere los datos del ejercicio 10.41 de la pagina 359 del capitulo 10. En un es- 
tudio, Retention de nutrientes y respuesta de comunidades de macroinvertebrados 
ante la presion de aguas residuales en un ecosistema fluvial , que se llevo a cabo en 
el departamento de zoologfa del Instituto Politecnico y la Universidad Estatal de 
Virginia, se recabaron datos sobre mediciones de densidad (numero de organismos 
por metro cuadrado) en dos diferentes estaciones colectoras. En el capitulo 10 se 
dan detalles con respecto a los metodos analfticos de comparacion de muestras, para 
determinar si ambas son de la misma distribucion N(p, a) Los datos se presentan en 
la tabla 8.3. 


Tabla 8.3: Datos para el ejemplo 8.5 

N?mero de organismos por metro cuadrado 


Estaci?n 1 Estaci?n 2 


5,030 

4,980 

2,800 

2,810 

13, 700 

11,910 

4,670 

1,330 

10,730 

8,130 

6,890 

3,320 

11,400 

26,850 

7, 720 

1,230 

860 

17, 660 

7, 030 

2,130 

2,200 

22,800 

7, 330 

2,190 

4, 250 

1,130 



15,040 

1,690 




Construya una grafica de cuantiles-cuantiles normales y obtenga conclusiones 
con respecto a si es razonable o no suponer que las dos muestras son de la misma dis- 
tribucion n(x\ p, er). 

Solution: La figura 8.5 muestra la grafica de cuantiles-cuantiles normales para las mediciones 
de densidad. La grafica muestra una apariencia que esta lejos de una sola lfnea recta. 
De hecho, los datos de la estacion 1 reflejan pocos valores en la cola inferior de la 
distribucion y varios en la cola superior. El “agrupamiento” de observaciones hace 
que parezca improbable que las dos muestras vengan de una distribucion coirmn 
N{p, a). 

Aunque hemos concentrado nuestro desarrollo e ilustracion en la graficacion 
de la probabilidad para distribuciones normales, podemos enfocarnos en cualquier 
distribucion. T an solo necesitarfamos calcular cantidades de forma analftica para la dis- 
tribucion teorica en cuestion. 
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Figura 8.6: Grafica cle cuantiles-cuantiles normales para los datos de 
densidad del ejemplo 8.5. 


8.4 Distribuciones muestrales 

El campo de la inferencia estadi'stica trata basicamente con generalizaciones y 
predicciones. Por ejemplo, podemos afirmar, con base en las opiniones de varias 
personas entrevistadas en la calle, que en una proxima eleccion 60% de los votan- 
tes en la ciudad de Detroit favorecerfan a cierto candidate. En este caso, trata- 
mos con una muestra aleatoria de opiniones de una poblacion finita muy grande. 
Como segunda ilustracion podemos afirmar que el costo promedio de construir 
una residencia en Charleston, Carolina del Sur, esta entre 8230,000 y 235,000, 
con base en las estimaciones de tres contratistas seleccionados al azar de 30 que 
laboran actualmente en esta ciudad. La poblacion que se va a muestrear aquf nueva- 
mente es finita pero muy pequeha. Finalmente, consideremos una maquina des- 
pachadora de bebida gaseosa en la cual la cantidad promedio de bebida servida 
se mantiene en 240 mililitros. Un funcionario de la companfa calcula la media de 
40 bebidas y obtiene x = 236 mililitros y, con base en este valor, decide que la 
maquina aun sirve bebidas con un contenido promedio de /r = 240 mililitros. Las 
40 bebidas representan una muestra de la poblacion infinita de posibles bebidas 
que esta maquina servira. 


Inferencias sobre la poblacion a partir de informacion de la muestra 

En cada uno de los ejemplos anteriores calculamos un estadfstico a partir de una 
muestra que se selecciona de la poblacion, y con base en tales estadfsticos hacemos 
varias afirmaciones con respecto a los valores de los parametros de la poblacion, que 
pueden ser ciertas o no. El funcionario de la companfa toma la decision de que la 
maquina despachadora sirve bebidas con un contenido promedio de 240 mililitros, 
aun cuando la media de la muestra fue de 236 mililitros, porque sabe de la teorfa 
del muestreo que es probable que ocurra tal valor de la muestra. De hecho, si realiza 
pruebas similares, digamos cada hora, esperarfa que los valores de x fluctuaran por 
arriba y por abajo de /r = 240 mililitros. Solo cuando el valor de x es considerable- 
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mente diferente de 240 mililitros el funcionario de la compama iniciara una action 
para ajustar la maquina. 

Como un estadi'stico es una variable aleatoria que depende solo de la muestra obser- 
vada, debe tener una distribution de probabilidad. 


Definition 8.10: 


La distribucion de probabilidad de un estadi'stico se llama distribution muestral. 


La distribucion de probabilidad de X se llama distribucion muestral de la 
media. 

La distribucion muestral de un estadi'stico depende del tamano de la poblacion, 
del tamano de las muestras y del metodo de election de estas. En el resto de este 
capitulo estudiaremos varias de las distribuciones muestrales mas importantes de 
los estadisticos que se utilizan con frecuencia. Las aplicaciones de tales distribucio- 
nes muestrales a problemas de inferencia estadistica se consideran en la mayoria de 
los capitulos posteriores. 


^Cual es la distribucion muestral deX? 

Se deberian ver las distribuciones muestrales de X y S 2 como el mecanismo a partir 
del cual a final de cuentas realizaremos inferencias de los parametros p y a 2 . La 
distribucion muestral de X con tamano muestral n es la distribucion que resulta 
cuando un experimento se lleva a cabo una y otra vez (siempre con tamano 
de la muestra n) y resultan los diversos valores de X . Esta distribucion mues- 
tral, entonces, describe la variabilidad de los promedios muestrales alrededor de la 
media de la poblacion p. En el caso de la maquina despachadora de bebida gaseosa, 
el conocimiento de la distribucion muestral de X ofrece al analista el conocimiento 
de una discrepancia “ti'pica” entre un valor x observado y el verdadero de p. Se apli- 
ca el mismo principio en el caso de la distribucion de S 2 . La distribucion muestral 
produce information acerca de la variabilidad de los valores de s 2 alrededor de a 2 en 
experimentos que se repiten. 


8.5 Distribuciones muestrales de medias 

La primera distribucion muestral importante que se debe considerar es la de la me- 
dia X . Suponga que una muestra aleatoria de n observaciones se toma de una 
poblacion normal con media p y varianza a 2 . Cada observation Xj, i = 1, 2, . . . , n, 
de la muestra aleatoria tendra entonces la misma distribucion normal que la pobla- 
cion que se muestrea. De aquf, por la propiedad reproductiva de la distribucion normal 
que se establece en el teorema 7.11, concluimos que 

X = — (Xi + X 2 + • ■ • + X n ) 
n 

tiene distribucion normal con media 

Px = -(p + p + ---+p) = p, 
n v ' 

n terminos 


y varianza 


h ^ 2 + ^ 2 + 




+ O = 


n terminos 
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Teorema 8.2: 


Ejemplo 8.6: 


Solucion: 


Si tomamos muestras de una poblacion con distribution desconocida, ya sea finita o 
infinita, la distribution muestral de X aun sera aproximadamente normal con media /r 
y varianza cr 2 /n siempre que el tamaiio de la muestra sea grande. Este resultado asom- 
broso es una consecuencia inmediata del siguiente teorema, que se conoce como 
teorema del limite central. 


Teorema del limite central: Si X es la media de una muestra aleatoria de 
tamaiio n tomada de una poblacion con media /i y varianza finita a 2 , entonces la 
forma limite de la distribution de 


Z = 


X- [i 
a/y/n 1 


conforme n — > oo, es la distribution normal estandar ? i(z', 0, 1). 


La aproximacion normal para X, por lo general, sera buena si n > 30. Si n < 30, 
la aproximacion es buena solo si la poblacion no es muy diferente de una distribution 
normal y, como se establecio antes, si se sabe que la poblacion es normal, la distri- 
bution muestral de X seguira una distribution normal exacta, no importa que tan 
pequeno sea el tamaiio de las muestras. 

El tamaiio de la muestra n = 30 es un lineamiento para usar para el teorema del 
liinite central. No obstante, como indica la declaration del teorema, la suposicion de 
normalidad en la distribution de X se vuelve mas precisa conforme n se hace mas 
grande. De hecho, la figura 8.7 ilustra como funciona el teorema. Indica como la 
distribution de X se hace mas cercana a la normal conforme n aumenta, empezando 
con la distribution claramente asimetrica de una observation individual (n = 1). 
Tambien ilustra que la media de X es /r para cualquier tamaiio de la muestra y la 
varianza de X se vuelve mas pequeiia conforme n aumenta. 

Como uno podrfa esperar, la distribucion de X estara cercana a la normal para 
el tamaiio de la muestra n < 30, si la distribucion de una observation individual se 
acerca a la normal. 


Una empresa de material electrico fabrica bombillas de luz que tienen una duration 
que se distribuye aproximadamente en forma normal, con media de 800 horas y 
desviacion estandar de 40 horas. Encuentre la probabilidad de que una muestra 
aleatoria de 16 bombillas tenga una vida promedio de menos de 775 horas. 

La distribucion muestral de X sera aproximadamente normal, con /tty = 800 y 
cry- = 40/\/l6 = 10. La probabilidad que se desea esta dada por el area de la region 
sombreada de la figura 8.8. 

En correspondence con x = 775, encontramos que 

775 - 800 


y, por lo tanto, 


P{X < 775) = P(Z < -2.5) = 0.0062. 


J 
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Figura 8.7: Ilustracion del teorema del lfmite central (distribution de X 
para n = 1 , n moderada y n grande). 



Figura 8.8: Area para el ejemplo 8.6. 


Inferencias sobre la media de la poblacion 

Una aplicacion muy importante del teorema del lfmite central consiste en cletermi- 
nar valores razonables de la media de la poblacion p. Temas como prueba de hipo- 
tesis, estimation, control de calidad y otros utilizan el teorema del lfmite central. El 
siguiente ejemplo ilustra el uso del teorema del lfmite central a este respecto, aunque 
la aplicacion formal de los temas anteriores se deja para capftulos futures. 


Ejemplo 8.7:1 Un importante proceso de fabrication produce partes de componentes cilfndricos 
para la industria automotriz. Es importante que el proceso produzca partes que 
tengan una media de 5 milfmetros. El ingeniero implicado hace la conjetura de que la 
media de la poblacion es de 5.0 milfmetros. Se lleva a cabo un experimento donde se 
seleccionan al azar 100 partes elaboradas por el proceso y se mide el diametro de 
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cada una de ellas. Se sabe que la desviacion estandar de la poblacion es a = 0.1. El 
experimento indica un diametro promedio de la muestra x = 5.027 milmietros. ^Esta 
information de la muestra parece apoyar o refutar la conjetura del ingeniero? 

Solucion: Este ejemplo refleja la clase de problema que se plantea a menudo y que se resuelve 
con la maquinaria de la prueba de hipotesis que se presenta en los siguientes capi- 
tulos. No utilizaremos aquf el formalismo asociado con la prueba de hipotesis; pero 
ilustraremos los principios y la logica que se utilizan. 

Si los clatos apoyan o refutan la conjetura depende de la probabilidad de que 
datos similares a los que se obtuvieron en este experimento (x = 5.027) pueden ocu- 
rrir con facilidad cuando de hecho /i = 5.0 (figura 8.9). En otras palabras, ique tan 
probable es que se pueda obtener x > 5.027 con n = 100, si la media de la poblacion 
H = 5.0? Si esta probabilidad sugiere que x = 5.027 no es poco razonable, no se 
refuta la conjetura. Si la probabilidad es bastante baja, se puede argumentar con 
certidumbre que los datos no apoyan la conjetura de que /i = 5.0. La probabilidad 
que elijamos para calcular esta dada por P(\X — 5| > 0.027). 



x 


Figura 8.9: Area para el ejemplo 8.7. 


En otras palabras, si la media /i es 5, ^cual es la probabilidad de que X se desvie 
a lo mas en 0.027 milmietros? 


P(\X - 5| > 0.027) = P(X - 5 > 0.027) + P(X 


= 2 P 


X-5 

o.i/v'Too 


> 2.7 . 


5 < -0.027) 


Aqui simplemente estandarizamos X de acuerdo con el teorema del limite central. 
Si es cierta la conjetura /i = 5.0, 0 deberia ser A^(0, 1). Asi, 


2 P 


X-5 

O.I/a/100 


> 2.7 


2 P(Z > 2.7) = 2(0.0035) = 0.007. 


De esta manera, se experimentana por casualidad una x que esta a 0.027 milmietros 
de la media en tan solo 7 de 1000 experimentos. Como resultado, este experimento 
con x = 5.027 ciertamente no ofrece evidencia que apoye la conjetura de que /r = 5.0. 
De hecho, hrmemente refuta la conjetura! 
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Distribution muestral de la diferencia entre dos promedios 

La ilustracion del ejemplo 8.7 trata con nociones de inferencia estadistica sobre una 
sola media p. El ingeniero estaba interesado en apoyar una conjetura con respecto a 
una sola media de la poblacion. Una aplicacion mucho mas importante incluye dos 
poblaciones. Un cientffico o ingeniero se interesa en un experimento comparative 
donde se comparan dos metodos de produccion: 1 y 2 . La base para tal comparacion 
es pi — p-2- la diferencia en las medias de las poblaciones. 

Suponga que tenemos dos poblaciones, la primera con media p\ y varianza 
y la segunda con media p2 y varianza a\. Representemos con el estadistico X± la 
media de una muestra aleatoria de tamano n\ seleccionada de la primera poblacion, 
y con el estadistico X-2 la media de una muestra aleatoria de tamano ri2 seleccionada 
de la segunda poblacion, independiente de la muestra de la primera poblacion. ^Que 
podriamos decir acerca de la distribucion de muestreo de la diferencia X\ — X2 para 
muestras repetidas de tamano n\ y 712? De acuerclo con el teorema 8 . 2 , las variables 
Xiyl2 estan distribuidas aproximadamente de forma normal con medias p\ y P2 y 
varianzas crf/ni y <r|/ri2, respectivamente. Esta aproximacion mejora conforme n\ 
y ri2 aumentan. A 1 elegir muestras independientes de las dos poblaciones, las varia- 
bles Xi y X2 seran independientes y entonces, usando el teorema 7 . 11 , con ai = 1 y 
02 = — 1 , concluimos que Xi — X2 esta distribuida aproximadamente de forma 
normal con media 


^X 1 -X 2 — Mxi — Mx 2 — Mi _ M2 


y varianza 


'x,-x 2 


' x , 


+ <j 


A ' 2 


| g 2 
n\ n 2 ' 


Teorema 8.3: 


Si se extraen al azar muestras independientes de tamanos n\ y n,2 de dos poblacio- 
nes, discretas o continuas, con medias P2 y P2 y varianzas a\ y cr| respectivamente, 
entonces la distribucion muestral de las diferencias de las medias, X\ — X2, esta 
distribuida aproximadamente de forma normal con media y varianza dadas por 

9 9 

2 G \ 

d'X 1 -X 2 — Ml ~ M2, y o Y jy — I ■ 

1 i ^1 - v 2 m U2 

De aquf, 

^ (Xi - X 2 ) - {pi - M2 ) 

V(°i/ n i) + 

es aproximadamente una variable normal estandar. 


Si tanto ni como n2 son mayores que o iguales a 30 , la aproximacion normal para 
la distribucion de Xi — X2 es muy buena cuando las distribuciones subyacentes 
no estan tan alejadas de la normal. Sin embargo, aun cuando rii y 712 sean menores 
que 30 , la aproximacion normal es razonablemente buena excepto cuando las po- 
blaciones no son definitivamente normales. Por supuesto, si ambas poblaciones son 
normales, entonces X\ — X2 tiene una distribucion normal sin importar cuales son los 
tamanos de n\ y ri2- 
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Se llevan a cabo dos experimented independientes en los que se comparan dos tipos 
diferentes de pintura. Se pintan 18 espetimenes con el tipo A y en cada uno se re- 
gistra el tiempo de secado en horas. Lo mismo se hace con el tipo B. Se sabe que las 
desviaciones estandar de la poblacion son ambas 1.0. 

Suponiendo que el tiempo medio de secado es igual para los dos tipos de pintura, 
encuentre P(Xa~ Xb > 1.0), donde Xa y Xb son los tiempos promedio de secado 
para muestras de tamano ha = ub = 18. 

De la distribution de muestreo de Xa — Xb, sabemos que la distribution es aproxi- 
madamente normal con media 

M x A -x B = — Ms = 0, 

y varianza 



Figura 8.10: Area para el ejemplo 8.8. 


La probabilidad que se desea esta dada por la region sombreada en la figura 8.10. 
En correspondencia con el valor X a — Xb — 1.0, tenemos 

_ l -{ ha~ I^b) _ 1 ~ 0 

por lo que 

P(Z > 3.0) = 1 - P{Z < 3.0) = 1 - 0.9987 = 0.0013. 


^Que aprendemos con este ejemplo? 

La maquinaria de calculo se basa en la suposicion de que ha — I- 1 is- Suponga, sin 
embargo, que el experimento realmente se lleva a cabo con la finalidad de obtener 


Ejemplo 8.8: 


Solucion: 
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una inferencia con respecto a la igualdad de Pay Pb, los tiempos medios de secado 
de las dos poblaciones. Si los dos promedios difieren por una hora (o mas), esto cla- 
ramente es una evidencia que nos llevaria a concluir que el tiempo medio de secado 
de la poblacion no es igual para los dos tipos de pintura. Por otro lado, suponga 
que la diferencia en los dos promedios muestrales es tan pequena como, digamos, 15 
minutos. Si pa = Pb, 


Pi(X A ~ X B ) > 0.25 horas] = P ( ^ A ° > ^ 

= P (z > 0 = 1 - P(Z < 0.75) = 1 - 0.7734 = 0.2266. 

Como esta probabilidad no es baja, se concluina que una diferencia de 15 minutos 
en las medias de las muestras puede ocurrir por casualidad (es decir, sucede con fre- 
cuencia aun cuando pa = Pb )■ Como resultado, este tipo de diferencia en el tiempo 
promedio de secado ciertamente no es una serial clara de que pa ^ Pb- 

Como indicamos al principio, en los capitulos siguientes se proporcionara mas 
formalismo con respecto a este y a otros tipos de inferencia estadistica (por ejem- 
plo, la prueba de hipotesis). El teorema del lfmite central y las distribuciones de 
muestreo que se presentan en las siguientes tres secciones tambien jugaran un papel 
fundamental. 


Ejemplo 8.9:1 Los cinescopios para television del fabricante A tienen una duracion media de 6.5 
anos y una desviacion estandar de 0.9 aiios; mientras que los del fabricante B tienen 
una duracion media de 6.0 aiios y una desviacion estandar de 0.8 aiios. ^Ciial es la 
probabilidad de que una muestra aleatoria de 36 cinescopios del fabricante A tengan 
una duracion media que sea al menos de 1 ano mas que la duracion media de una 
muestra de 49 cinescopios del fabricante B? 

Solucion: Se nos da la siguiente information: 


Poblacion 1 

Poblacion 2 

Pa = 6.5 

P 2 — 6.0 

O 

b 

02 = 0.8 

0 

CO 

II 

e 

n 2 = 49 


Si utilizamos el teorema 8.3, la distribution muestral de X\ — X 2 sera aproxi- 
madamente normal y tendra una media y una desviacion estandar de 

Px 1 -x 2 = 6.5 -6.0 = 0.5 y = \[^r + ^ = 0.189. 

La probabilidad de que la media de 36 cinescopios del fabricante A sea al menos 
1 alio mayor que la media de 49 cinescopios del fabricante B esta dada por el area 
de la region sombreada de la figura 8.11. Con respecto al valor x\ — X 2 = 1.0, en- 
contramos que 


1.0 - 0.5 
0.189 


2.65, 
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i 



! 

°x-,-x 2 = 0.189 

/ 

i 

i 

i 

i 

i 

i 



0.5 

1.0 


Figura 8.11: Area para el ejemplo 8.9. 


y cle aqui 


P(Xx -X 2 > 1.0) = P(Z > 2.65) = 1 - P(Z < 2.65) 
= 1 - 0.9960 = 0.0040. 


Mas sobre la distribucion muestral de medias: 

Aproximacion normal a la binomial 

En la section 6.5, se discutio mucho acerca de la aproximacion normal a la distri- 
bucion binomial. Estaban dadas las condiciones sobre los parametros n y p, para 
los cuales la distribucion de una variable aleatoria binomial puede aproximarse me- 
diante la distribucion normal. Los ejemplos y los ejercicios reflcjaron la importancia 
de la herramienta a la que nos referimos como la “aproximacion normal” . Resulta 
que el teorema del limite central arroja aun mas luz sobre como y por que funciona 
esta aproximacion. Sabemos con certeza que una variable aleatoria binomial es el 
numero X de exitos en n pruebas independientes, donde el resultado de cada prueba 
es binario. En el capitulo 1 tambien vimos que la proportion calculada en un expe- 
rimento asi es un promedio de un conjunto de ceros y unos. De hecho, mientras que 
la proportion X/n es un promedio, X es la suma de este conjunto de ceros y unos, y 
tanto X como X/n son aproximadamente normales si n es suficientemente grande. 
Por supuesto, a partir de lo que aprendimos en el capitulo 6, hay condiciones de n y 
p que afectan la calidad de la aproximacion; a saber, np > 5 y nq > 5. 


Ej ercicios 


8.17 Si se extraen todas las muestras posibles de ta- 
mano 16 de una poblacion normal con media igual a 50 
y desviacion estandar igual a 5, £cual es la probabilidad 
de que una media muestral X caiga en el intervalo que 
va de Px — 1.9ctx a fix — 0.4a^? Suponga que las me- 
dias muestrales se pueden medir con cualquier grado 
de precision. 


8.18 Dada la poblacion uniforme discreta 
§, * = 2,4,6, 

0, en cualquier otro caso, 

encuentre la probabilidad de que una muestra aleatoria 
de tamaiio 54, seleccionada con reemplazo, de una me- 
dia muestral mayor que 4.1 pero menor que 4.4. Supon- 
ga que las medias se miden al decimo mas cercano. 
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8.19 Se fabrica cierto tipo de liilo con una resistencia 
a la tension media de 78.3 kilogramos y una desviacion 
estandar de 5.6 kilogramos. ^Como cambia la varianza 
de la media muestral cuando el tamano de la muestra 

a) aumenta de 64 a 196? 

b) disminuye de 784 a 49? 

8.20 Si la desviacion estandar de la media para la 
distribution muestral de muestras aleatorias de tamano 
36 de una poblacion grande o infinita es 2, 7que tan 
grande debe ser el tamano de la muestra si la desvia- 
cion estandar se reduce a 1.2? 

8.21 Una maquina de bebida gaseosa se ajusta de 
manera que la cantidad de bebida que sirve promedie 
240 mililitros con una desviacion estandar de 15 mili- 
litros. La maquina se verifica periodicamente tomando 
una muestra de 40 bebidas y se calcula el contenido 
promedio. Si la media de las 40 bebidas es un valor 
dentro del intervalo p y ± 2a x , se piensa que la maqui- 
na opera satisfactoriamente; de otra forma, se ajusta. 
En la section 8.4, el funcionario de la compama encuen- 
tra que la media de 40 bebidas es x = 236 mililitros y 
concluye que la maquina no necesita un ajuste. i,Fue 
esta una decision razonable? 

8.22 Las estaturas de 1000 estudiantes estan distri- 
buidas aproximadamente de forma normal con una me- 
dia de 174.5 centfmetros y una desviacion estandar de 
6.9 centfmetros. Si se extraen 200 muestras aleatorias 
de tamano 25 de esta poblacion y las medias se regis- 
tran al decimo mas cercano de centfmetro, determine 

a) la media y la desviacion estandar de la distribution 
muestral de X\ 

b) el numero de las medias muestrales que caen entre 
172.5 y 175.8 centfmetros inclusive; 

c) el numero de medias muestrales que caen por debajo 
de 172.0 centfmetros. 

8.23 La variable aleatoria X, que representa el nume- 
ro de cerezas en una tarta, tiene la siguiente distribu- 
tion de probabilidad: 


X 

4 5 6 7 

P{X = X ) 

0.2 0.4 0.3 0.1 


a) Encuentre la media p y la varianza <j 2 de X. 

b) Encuentre la media px y la varianza a\ de la media 
X para muestras aleatorias de 36 tartas de cereza. 

c) Encuentre la probabilidad de que el numero pro- 
medio de cerezas en 36 tartas sea menor que 5.5. 

8.24 Si cierta maquina fabrica resistencias electricas 
que tienen una resistencia media de 40 ohms y una 
desviacion estandar de 2 ohms, ^,cual es la probabilidad 
de que una muestra aleatoria de 36 de estas resisten- 
cias tenga una resistencia combinada de mas de 1458 
ohms? 


8.25 La vida media de una maquina para elaborar 
pasta es de 7 anos, con una desviacion estandar de 
1 ano. Suponiendo que las vidas de estas maquinas siguen 
aproximadamente una distribution normal, encuentre 

a ) la probabilidad de que la vida media de una muestra 
aleatoria de 9 de estas maquinas caiga entre 6.4 y 
7.2 anos; 

b) el valor de a: a la derecha del cual caerfa el 15% de 
las medias calculadas de muestras aleatorias de ta- 
mano 9. 

8.26 El tiempo en que el cajero de un banco con servi- 
cio en el automovil atiende a un cliente es una variable 
aleatoria con una media p = 3.2 minutos y una desvia- 
cion estandar a = 1.6 minutos. Si se observa una mues- 
tra aleatoria de 64 clientes, encuentre la probabilidad de 
que su tiempo medio con el cajero sea 

a) a lo mas 2.7 minutos; 

b) mas de 3.5 minutos; 

c) al menos 3.2 minutos pero menos de 3.4 minutos. 

8.27 En un proceso qufmico, la cantidad de cierto 
tipo de impurezas en el producto es diffcil de contro- 
lar y por ello es una variable aleatoria. Se especula 
que la cantidad media de la poblacion de impurezas 
es 0.20 gramos por gramo del producto. Se sabe que la 
desviacion estandar es 0.1 gramos por gramo. Se realiza 
un experimento para aprender mas con respecto a la 
especulacion de que p = 0.2. El proceso se lleva a cabo 
50 veces en un laboratorio y el promedio de la muestra 
x resulta ser 0.23 gramos por gramo. Comente sobre la 
especulacion de que la cantidad media de impurezas es 
0.20 gramos por gramo. Utilice el teorema del lfmite 
central en su respuesta. 

8.28 Se toma una muestra aleatoria de tamano 25 de 
una poblacion normal que tiene una media de 80 y una 
desviacion estandar de 5. Una segunda muestra alea- 
toria de tamano 36 se toma de una poblacion normal 
diferente que tiene una media de 75 y una desviacion 
estandar de 3. Encuentre la probabilidad de que la me- 
dia muestral calculada de las 25 mediciones exceda la 
media muestral calculada de las 36 mediciones por al 
menos 3.4 pero menos de 5.9. Suponga que las diferen- 
cias de las medias se miden al decimo mas cercano. 

8.29 La distribution de alturas de cierta raza de pe- 
rros terrier tiene una altura media de 72 centfmetros 
y una desviacion estandar de 10 centfmetros; en tanto 
que la distribution de alturas de cierta raza de poo- 
dles tiene una altura media de 28 centfmetros con una 
desviacion estandar de 5 centfmetros. Suponiendo que 
las medias muestrales se pueden medir con cualquier 
grado de precision, encuentre la probabilidad de que 
la media muestral para una muestra aleatoria de altu- 
ras de 64 terriers exceda la media muestral para una 
muestra aleatoria de alturas de 100 poodles a lo mas en 
44.2 centfmetros. 
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8.30 La calificacion media de estudiantes de primer 
ano en un examen de aptitudes en cierta universidad 
es 540, con una desviacion estandar de 50. £Cual es la 
probabilidad de que dos grupos de estudiantes seleccio- 
nados al azar, que consisten en 32 y 50 estudiantes, res- 
pectivamente, difieran en sus calificaciones medias por 

a) mas de 20 puntos? 

b) una cantidad entre 5 y 10 puntos? 

Suponga que las medias se rniden con cualquier gra- 
do de precision. 

8.31 Construya una grafica de cuantiles para estos 
datos. Las duraciones, en lioras, de cincuenta lampa- 
ras incandescentes de 40 watts a 110 volts enfriadas 
internamente tomadas de pruebas en condiciones ad- 


versas son: 

919 

1196 

785 

1126 

936 

918 

1156 

920 

948 

1067 

1092 

1162 

1170 

929 

950 

905 

972 

1035 

1045 

855 

1195 

1195 

1340 

1122 

938 

970 

1237 

956 

1102 

1157 

978 

832 

1009 

1157 

1151 

1009 

765 

958 

902 

1022 

1333 

811 

1217 

1085 

896 

958 

1311 

1037 

702 

923 






8.32 Considere el ejemplo 8.8 de la pagina 249. Su- 
ponga que se utilizan 18 especi'menes para cada tipo de 
pintura en un experimento y que xa — xb, la diferencia 
real en el tiempo medio de secado resulta ser 1.0. 

a) £]5ste parece un resultado razonable si los tiempos 
medios de secado de las dos poblaciones en verdad 
son iguales? Utilice el resultado en la solution del 
ejemplo 8.8. 

b) Si alguien liizo el experimento 10,000 veces bajo la 
condition de que = hb, £e n cuantos de estos 
10,000 experimentos habria una diferencia xa — xb 
que fuera tan grande como (o mas grande que) 1.0? 

8.33 Dos maquinas diferentes de llenado de cajas se 
utilizan para llenar cajas de cereal en la linea de en- 
samble. La medicion fundamental que esta influida por 
tales maquinas es el peso del producto en las maquinas. 
Los ingenieros estan bastante seguros de que la varianza 
en el peso del producto es a 2 = 1 onza. Se realizan expe- 
rimentos usando ambas maquinas con tamanos mues- 
trales de 36 cada una. Los promedios muestrales para 
las maquinas A y B son xa = 4.5 onzas y xb = 4.7 
onzas. Los ingenieros parecen sorprendidos de que los 
dos promedios maestrales para las maquinas de llenado 
sean tan diferentes. 

a) Utilice el teorema del lfmite central para determinar 

P{X B - X A > 0.2) 

con la condition de que ^a = Hb- 

b) £Parece como si los experimentos mencionados, de 
cualquier forma, apoyaran consistentemente una 
conjetura de que las dos medias de las poblaciones 


para las dos maquinas son diferentes? Explique uti- 
lizando su respuesta en el inciso a). 

8.34 Construya una grafica de cuantiles-cuantiles nor- 
males de estos datos. Los diametros de 36 cabezas de 
remaches en 1/100 de pulgada son: 


6.72 

6.77 

6.82 

6.70 

6.78 

6.70 

6.62 

6.75 

6.66 

6.66 

6.64 

6.76 

6.73 

6.80 

6.72 

6.76 

6.76 

6.68 

6.66 

6.62 

6.72 

6.76 

6.70 

6.78 

6.76 

6.67 

6.70 

6.72 

6.74 

6.81 

6.79 

6.78 

6.66 

6.76 

6.76 


6.72 

8.35 El benceno es una sustancia qufmica altamen- 
te toxica para los seres humanos. Sin embargo, se le 
utiliza en la fabrication de medicamentos, tintes, en la 
industria del cuero y en la fabrication de recubrimien- 
tos. En cualquier proceso de production en que parti- 
cipe el benceno, el agua en el resultado del proceso no 
debe exceder 7950 partes por millon (ppm) de benceno, 
de acuerdo con la regulation gubernamental. Para un 
proceso particular de interes, un fabricante recolecto 
la muestra de agua 25 veces de manera aleatoria y el 
promedio muestral x fue de 7960 ppm. A partir de los 
datos historicos, se sabe que la desviacion estandar a 
es 100 ppm. 

a) £Cual es la probabilidad de que el promedio mues- 
tral en este experimento exceda el lfmite guberna- 
mental, si la media poblacional es igual al lfmite? 
Utilice el teorema del lfmite central. 

b) La cifra x = 7960 observada en este experimento £es 
firme evidencia de que la media poblacional para el 
proceso excede el lfmite gubernamental? Responda 
calculando 

P(X > 7960 | n = 7950). 

Suponga que la distribution de la concentration de 
benceno es normal. 

8.36 Dos aleaciones, A y B, se utilizan en la fabrica- 
tion de cierto producto de acero. Se necesita disenar un 
experimento para comparar las dos aleaciones en termi- 
nos de la capacidad de carga maxima en toneladas, es 
decir, el maximo que pueden soportar sin romperse. Se 
sabe que las dos desviaciones estandar de la capacidad 
de carga son iguales a 5 toneladas cada una. Se realiza 
un experimento en el que se prueban 30 muestras de 
cada aleacion (A y B), y los resultados son 

xa = 49.5, xb = 45.5; xa — xb = 4. 

Los fabricantes de la aleacion A estan convencidos de 
que esta evidencia demuestra de forma concluyente que 
1-iA > /4b y que apoya solidamente su aleacion. Los fa- 
bricantes de la aleacion B afirman que el experimento 
facilmente podrfa haber dado xa — xb = 4 incluso si 
las dos medias poblacionales son iguales. En otras pa- 
labras, “jlos resultados no son concluyentes!” 
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a) Argumente que los fabricantes de la aleacion B es- 
tan equivocados. Para ello, calcule 

P{Xa — Xb > 4 j pa = Pb)- 

b) /.Considera que estos datos apoyan fuertemente la 
aleacion A ? 

8.37 Considere la situation del ejemplo 8.6 de la pa- 
gina 245. /.Estos resultados lo hacen cuestionar la pre- 


misa de que p = 800 horas? De un resultado probabilis- 
tico ciue indique que tan raro es un evento de que X < 775 
cuando p = 800. Por otro lado, /.que tan raro seria si p 
fuera verdaderamente, digamos, 760 horas? 

8.38 Sea Xi, X 2 , ■ ■ . , X n una muestra aleatoria a par- 
tir de una distribution que solo pueda adoptar valores 
positivos. Utilice el teorema del lunite central para ar- 
gumentar ciue si n es suficientemente grande, entonces 
Y = XiX 2 ■ ■ ■ X n tiene aproximadamente una distribu- 
tion logaritmica normal. 


8.6 Distribucion muestral de S 2 

En la section anterior aprendimos acerca de la distribucion de muestreo de X. El 
teorema del lirnite central nos permitio utilizar el hecho de que 


X - p 

ojsjn 


tiende a N( 0, 1) conforme crece el tamaho de la muestra. Los ejemplos 8.6 a 8.9 
ilustran las aplicaciones del teorema del lhnite central. Las distribuciones muestrales 
de estadisticos import-antes nos permiten conocer information sobre los parametros. 
Por lo general, los parametros son la contraparte del estadtstico en cuestion. Si un 
ingeniero se interesa en la resistencia media de la poblacion de cierto tipo de resis- 
tencia, la distribucion muestral de X se explotara una vez que se retina la infor- 
mation de la muestra. Por otro lado, si se estudia la variabilidad en la resistencia, 
claramente la distribucion muestral de S 2 se utilizara para conocer la contraparte 
parametrica, la varianza de la poblacion a 2 . 

Si se extrae una muestra aleatoria de tamaho n de una poblacion normal con 
media p y varianza a 2 , y se calcula la varianza muestral, obtenemos un valor del es- 
tadtstico S 2 . Procederemos a considerar la distribucion del estadtstico (n — 1 )S 2 /a 2 . 

Mediante la suma y la resta de la media muestral X , es facil ver que 


- ^) 2 = E[( x * - x) + (* - p)} 2 

i= 1 i= 1 

= E(^ - ^) 2 + - m ) 2 + 2(x - p) J2(x> - X) 

i = 1 i= 1 

n 

= Y J {Xi-Xf+n{X-p) 2 . 

2=1 


A1 dividir cada termino de la igualdad entre a 2 y sustituir (n — 1)S' 2 por ^ (Xi— X) 2 , 
obtenemos 1=1 


A£(x,-»)* = 


(n - l )^ 2 (X - p ) 2 


2/ r 
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Ahora, de acuerdo con el corolario del teorema 7.12 sabemos que 

y (A r t - /. l ) 2 

(j2 

i= 1 

es una variable aleatoria chi cuadrada con n grados de libertad. Tenemos una varia- 
ble aleatoria chi cuadrada con n grados de libertad dividida en dos componentes. El 
segundo termino del lado derecho es Z 2 , que es una variable aleatoria chi cuadrada 
con 1 grado de libertad y resulta que ( n — 1 )S 2 /o 2 es una variable aleatoria chi 
cuadrada con n — 1 grados de libertad. Formalizamos esto en el siguiente teorema. 


Teorema 8.4: 


Si S' 2 es la varianza de una muestra aleatoria de tamaho n que se toma de una po- 
blacion normal que tiene la varianza cr 2 , entonces el estadistico 


, 2 (n — 1)S 2 Xi-X) 2 

A _9 


o * 


i= 1 


(J 


tiene una distribution chi cuadrada con v = n — 1 grados de libertad. 


Los valores de la variable aleatoria X 2 se calculan de cada muestra mediante la 
formula 


2 in — l)s 2 

X = - — 

o z 

La probabilidad de que una muestra aleatoria produzca un valor y 2 mayor que algun 
valor especifico es igual al area bajo la curva a la derecha de este valor. Se acostum- 
bra representar con y 2 valor y 2 por arriba del cual encontramos un area de a. 
Esto se ilustra mediante la region sombreada de la hgura 8.12. 


a 



0 xl 


Figura 8.12: La distribucion chi cuadrada. 


La tabla A. 5 da los valores de ^2 p ara diversos valores de a y v. Las areas, a, 
son los encabezados de las columnas; los grados de libertad, v, se dan en la columna 
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izquierda, y las entradas de la tabla son los valores y 2 . De aqui, el valor \ 2 con 
7 grados de libertad, que cleja un area de 0.05 a la derecha, es xo.05 = 14.067. Debido 
a la falta de simetria, debemos usar tambien las tablas para encontrar X 0.95 = 2.167 
para v = 7. 

Exactamente 95% de una distribution chi cuadrada yace entre Xo .975 y Xo. 025 - 
Un valor x 2 que cae a la derecha de X 0.025 n0 es probable que ocurra, a menos que 
nuestro valor supuesto de a 2 sea demasiado pequeho. Asimismo, un valor x 2 que cae 
a la izquierda de Xo .975 es improbable, a menos que nuestro valor supuesto de a 2 sea 
demasiado grande. En otras palabras, es posible tener un valor x 2 a la izquierda de 
Xo .975 o a la derecha de X 0.025 cuando a 2 es correcta; pero si esto deberia ocurrir, es 
mas probable que el valor supuesto de a 2 este equivocado. 


Ejemplo 8.10:1 Un fabricante de baterias para automovil garantiza que sus baterias duraran, en pro- 
medio, 3 anos con una desviacion estandar de 1 aho. Si cinco de estas baterias tienen 
duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 anos, ^el fabricante aun esta convencido de que 
sus baterias tienen una desviacion estandar de 1 aho? Suponga que la duration de la 
bateria sigue una distribution normal. 

Solucion: Usando el teorema 8.1 encontramos primero la varianza de la muestra, 


s 


2 


(5)(48.26) - (15) 2 
(5K4) 


0.815. 


Entonces, 


X 


MiM „ 3.26 


es un valor de una distribution chi cuadrada con 4 grados de libertad. Como 95% de 
los valores x 2 con 4 grados de libertad caen entre 0.484 y 11.143, el valor calculado 
con a 2 = 1 es razonable y, por lo tanto, el fabricante no tiene razon para sospechar 
que la desviacion estandar sea diferente de 1 aho. 


Grados de libertad como medicion de la informacion muestral 

El lector puede obtener algunos conocimientos al considerar el teorema 8.4 y el co- 
rolario 7.1 en la section 7.3. Sabemos que con las condiciones del teorema 7.12, es 
decir, una muestra aleatoria que se toma de una distribution normal, que la variable 
aleatoria 


yp {Xj ~ M ) 2 

(j2 

i—1 

tiene una distribucion y 2 con n grados de libertad. Observe ahora que el teorema 8.4 
indica que con las mismas condiciones del teorema 7.12, la variable aleatoria 


(n - l)^ 2 

6T2 


y, (X t ~ Xf 


tiene una distribucion x 2 con n — 1 grados de libertad. El lector clebe recordar que 
el termino grados de libertad , que se utiliza en este contexto identico, se estudio en el 
capitulo 1. 
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Como indicamos anteriormente, no se dara la clemostracion del teorema 8.4. Sin 
embargo, el lector puede ver el teorema 8.4 como una indication cle que cuando no 
se conoce p y se considera la distribucion de 

A PC - x) 2 

2^ a 2 

i=i 

hay 1 grado de libertad menos, o se pierde un grado de libertad en la estima- 
tion de p (es decir, cuando p se reemplaza por x). En otras palabras, hay n grados 
de libertad o piezas de information independientes en la muestra aleatoria de la 
distribucion normal. Cuando los datos (los valores en la muestra) se utilizan para 
calcular la media, hay 1 grado de libertad menos en la information que se utiliza 
para estimar o 1 . 


8.7 Distribucion t 

En la section 8.5 se presento la utilidad del teorema del lfmite central. Sus aplicacio- 
nes giran alrededor de las inferencias sobre una media de la poblacion o la diferencia 
entre dos medias de poblacion. El uso del teorema del limite central y la distribucion 
normal es evidentemente util en este contexto. Sin embargo, se supuso que se conoce 
la desviacion estandar de la poblacion. Esta suposicion quiza sea razonable en situa- 
ciones donde el ingeniero este bastante familiarizado con el sistema o proceso. No obs- 
tante, en muchos escenarios experiment ales el conocimiento de er ciertamente no es mas 
razonable que el conocimiento de la media de la poblacion p. A menudo, de hecho, 
una estimation de er la debe proporcionar la misma information muestral que produ- 
ce el promedio muestral x. Como resultado, un estadtstico natural a considerar para 
tratar con las inferencias sobre p es 

rp X-H 

S/y/n 

puesto que S es el analogo de la muestra para a. Si el tamaho de la muestra es pe- 
queno, los valores de S’ 2 fluctuan de forma considerable de una muestra a otra (vease 
el ejercicio 8.45 de la pagina 265) y la distribucion de T se desvia de forma apreciable 
de la de una distribucion normal estandar. 

Si el tamaho de la muestra es suficientemente grande, digamos n > 30, la distri- 
bucion de T no difiere mucho de la normal estandar. Sin embargo, para n < 30, es 
util tratar con la distribucion exacta de T. Para desarrollar la distribucion muestral 
de T supondremos que nuestra muestra aleatoria se selecciono de una poblacion 
normal. Podemos escribir, entonces, 

T= = Z 

\/S 2 /(J 2 V v /( n - !)’ 


donde 


X- p. 

o/y/n 


tiene la distribucion normal estandar y 


V = 


( n — 1 )S 2 
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tiene una distribution chi cuadrada con v = n — 1 grados de libertad. A1 muestrear 
a partir de poblaciones normales, se puede mostrar que X y S 2 son independientes 
y, en consecuencia, tambien lo son Z y V El siguiente teorema da la definition de 
una variable aleatoria T como una funcion de Z (normal estandar) y una y 2 . Para 
completar se da la funcion de clensidad de la distribution t. 


Teorema 8.5: 


Sea Z una variable aleatoria normal estandar y V una variable aleatoria chi cua- 
drada con v grados de libertad. Si Z y V son independientes, entonces, la distri- 
bution de la variable aleatoria T, donde 


T = 



esta dada por la funcion de densidad 


h{t) 


r[fr + i)/2] / * 2 V (t,+1)/2 

Y{y /2)^/wv \ v ) 


— OO < t < 00. 


Esta se conoce como la distribucion t con v grados de libertad. 


De lo anterior y del teorema 8.5 tenemos el siguiente corolario: 


Corolario 8.1: 


Sean X 2 , • ■ ■ , X n variables aleatorias independientes que son todas normales 
con media p y desviacion estandar a. Sea 


n z- — ' 


s2 = ^T7 


i—1 


Entonces, la variable aleatoria T = tiene una distribucion t, con v = n — 1 

S/ yjn 

grados de libertad. 


La distribucion de probabilidad de T se publico por primera vez en 1908 en un 
artfculo de W. S. Gosset. En esa epoca, Gosset era empleado de una cervecerfa ir- 
landesa que no autorizaba la publication de investigaciones de sus empleados. Para 
evadir tal prohibition, publico su trabajo en secreto bajo el nombre “Student”. En 
consecuencia, la distribucion de T normalmente se llama distribucion t de Student, 
o simplemente distribucion t. Para derivar la ecuacion de esta distribucion, Gosset 
supone que las muestras se seleccionan de una poblacion normal. Aunque esto pare- 
cerfa una suposicion muy restrictiva, se puede mostrar que las poblaciones no nor- 
males que poseen distribuciones en forma casi de campana aun proporcionan valores 
de T que se aproximan muy de cerca a la distribucion t. 


iA que se parece la distribucion £? 

La distribucion de T es similar a la distribucion de Z en que ambas son simetricas al- 
rededor de una media de cero. Ambas distribuciones tienen forma de campana; pero 
la distribucion t es mas variable, debido al hecho de que los valores T dependen de 
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las fluctuaciones de dos cantidades, X y S 2 \ mientras que los valores Z dependen solo 
de los cambios de X de una muestra a otra. La distribution de T difiere de la de Z 
en que la varianza de T depende del tamano de la muestra n y siempre es mayor que 1. 
Unicamente cuando el tamano de la muestran n — > oo las dos distribuciones seran 
las mismas. En la figura 8.13 mostramos la relation entre una distribucion normal 
estandar ( v = oo) y las distribuciones t con 2 y 5 grados de libertad. Los puntos 
porcentuales de la distribucion t se dan en la tabla A. 4. 



Figura 8.13: Curvas de la distribucion t para 
v = 2, 5 y oo. 


Figura 8.14: Propiedad de simetrfa 
de la distribucion t. 


Se acostumbra representar con t a el valor t por arriba del cual encontramos un 
area igual a a. De aquf, el valor t con 10 grados de libertad que deja un area de 
0.025 a la derecha es t = 2.228. Como la distribucion t es simetrica alrededor de una 
media de cero, tenemos t\- a = — t a \ es decir, el valor t que deja un area de 1 — a a 
la derecha y, por lo tanto, un area de a a la izquierda es igual al valor t negativo que 
deja un area de a en la cola derecha de la distribucion (vease la figura 8.14). Esto es, 
to . 95 = to. os? to . 99 = —to. oi, etcetera. 


Ejemplo 8.11:1 El valor t con v = 14 grados de libertad que deja un area de 0.025 a la izquierda y, 
por lo tanto, un area de 0.975 a la derecha, es 


to. 975 — —to. 025 — —2.145 


J 


Ejemplo 8.12:1 
Solution: 


Encuentre P(— 1 0 . 025 < T < t 0 . 05 ). 

Como < 0.05 deja un area de 0.05 a la derecha, y 
izquierda, encontramos un area total de 


—to . 025 deja un area de 0.025 a la 


1 - 0.05 - 0.025 = 0.925 


entre -to .025 y to. 05 - De aquf, 


P(— to. 025 < T < to. 05 ) — 0.925. 


J 


Ejemplo 8.13:1 Encuentre k tal que P(k < T < —1.761) = 0.045, para uria muestra aleatoria de 
tamano 15 que se selecciona de una distribucion normal y A '~C 

1 J s/tin 
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Solucion: De la tabla A. 4 notamos que 1.761 corresponde a to . 05 cuando v = 14. Por lo tanto, 
— to.o 5 = —1.761. Como k en el enunciado de probabilidad original esta a la izquierda 
de —to . 05 = —1-761, sea k = — t a . Entonces, de la figura 8.15, tenemos 

0.045 = 0.05 - a o a = 0.005. 



k= t a 0 


Figura 8.15: Valores t para el ejemplo 8.13. 


Por ello, de la tabla A. 4 con v = 14, 

k = — to . 005 = -2.977 y P(- 2.977 < T< -1.761) = 0.045. 

Exactamente 95% de los valores de una distribucion t con v = n — 1 grados de 
libertad caen entre —to. 025 y to. 025 - Por supuesto, hay otros valores t que contienen 
95% de la distribucion, como —to. 02 y to. 03 , pero estos valores no aparecen en la 
tabla A. 4 y, ademas, el intervalo mas corto posible se obtiene al elegir valores t que 
dejen exactamente la misma area en las dos colas de nuestra distribucion. Un valor t 
que caiga por clebajo de —to. 025 o por arriba de to. 025 tenderfa a hacernos creer que 
ha ocurrido un evento muy raro, o que quiza nuestra suposicion acerca de p esta 
equivocada. Si esto ocurre, tomaremos la ultima decision y afirmaremos que nuestro 
valor supuesto de p es erroneo. De hecho, un valor t que cae por debajo de —to. 01 
o por arriba de to. 01 proporcionaria incluso evidencia mas solida de que nuestro 
valor supuesto de p es bastante improbable. En el capitulo 10 se trataran procedi- 
mientos generales para probar afirmaciones con respecto al valor del parametro p. 
El siguiente ejemplo ilustra un aspecto preliminar del fundamento de tales proce- 
dimientos. 


Ejemplo 8.14:1 Un ingeniero quimico afirma que el rendimiento medio de la poblacion de cierto 
proceso en lotes es 500 gramos por milimetro de materia prima. Para verificar dicha 
afirmacion muestrea 25 lotes cada mes. Si el valor t calculado cae entre —to . 05 y to. 05 , 
queda satisfecho con su afirmacion. ^Que conclusion cleberia obtener de una mues- 
tra que tiene una media x = 518 gramos por milimetro y una desviacion estandar 
muestral s = 40 gramos? Suponga que la distribucion de rendimientos es aproxima- 
damente normal. 

Solucion: De la tabla A. 4 encontramos que to . 05 = 1.711 para 24 grados de libertad. Por lo 
tanto, el fabricante queda satisfecho con esta afirmacion si una muestra de 25 lotes 
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produce un valor t entre —1.711 y 1.711. Si /i = 500, entonces, 


518 - 500 
40/V25 


2.25, 


un valor muy por arriba de 1.711. La probabilidad de obtener un valor t, con v = 24, 
igual o mayor que 2.25 es aproximadamente 0.02. Si [i l 500, el valor de t, calculado 
de la muestra seria mas razonable. De aqui que sea probable que el fabricante con- 
cluya que el proceso produce un mejor producto del que pensaba. 


^Para que se utiliza la distribucion £? 

La distribucion t se usa de manera extensa en problemas que tienen que ver con 
inferencia acerca de la media de la poblacion (como se ilustra en el ejemplo 8.14) o 
en problemas que implican muestras comparativas (es decir, en casos donde se trata 
de determinar si las medias de dos muestras son significativamente diferentes). El 
uso de la distribucion se ampliara en los capitulos 9 a 12. El lector cleberia notar que 
el uso de la distribucion t para el estadistico 


T = 


X -n 
S/ \fn 


requiere que Xi, X 2 , ■ ■ ■ , X n sea normal. El uso de la distribucion t y la considera- 
tion del tamano de la muestra no se relacionan con el teorema del limite central. El 
uso de la distribucion normal estandar en vez de T para n > 30 solamente implica, 
en este caso, que S es un estimador suficientemente bueno de a. En los siguientes 
capitulos la distribucion t encuentra un uso extenso. 


8.8 Distribucion F 

Motivamos la distribucion t en parte sobre la base de la aplicacion a problemas en 
los que hay muestreo comparative (es decir, comparacion entre dos medias mues- 
trales). Algunos de nuestros ejemplos en los siguientes capitulos brindaran el for- 
malismo. Un ingeniero quimico reune datos de dos catalizadores. Un biologo colecta 
datos sobre dos medias de crecimiento. Un quimico reune datos sobre dos metodos 
de recubrimiento de material para prevenir la corrosion. Aunque es de interes que 
la information muestral arroje luz sobre dos medias de poblaciones, es frecuente el 
caso en que una comparacion, en algun sentido, de la variabilidad sea igualmente 
importante, si no es que mas. La distribucion F encuentra enorme aplicacion en la 
comparacion de varianzas muestrales. Las aplicaciones de la distribucion F se en- 
cuentran en problemas que implican dos o mas muestras. 

El estadistico F se define como la razon de dos variables aleatorias chi cuadradas 
independientes, dividida cada una entre su numero de grados de libertad. De aqui, 
podemos escribir 

p = Et 1 

V/v 2 ' 

donde U y V son variables aleatorias independientes que tienen distribuciones chi 
cuadradas con Vi y v 2 grados de libertad, respectivamente. Estableceremos ahora la 
distribucion muestral de F. 
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Teorema 8.6: 


Sean U y V dos variables aleatorias independientes que tienen distribuciones chi 
cuadradas con v\ y V 2 grados de libertad, respectivamente. Entonces, la distribu- 
tion de la variable aleatoria F = esta dada por la densidad 


M /) 


' r[(t) 1 +t) 2 )/2l(^i/-»2) ,,l/2 /(" i/ 2 )- 1 

r(«i/2)r(t) 2 /2) (i+j) 1 //-u 2 )("i+’'2)/2 ’ 


/ > 0, 


, 0 , /< 0 . 

I Esta se conoce como la distribucion F con v\ y V 2 grados de libertad (g.l). 


De nuevo haremos un uso considerable de la variable aleatoria F en capitulos pos- 
teriores. Sin embargo, no se utilizara la funcion de densidad y se dara solo como 
complemento. La curva de la distribucion F depende no solo de los dos parametros 
v\ y V2 sino tambien del orden en el que se establecen. Una vez que se dan estos dos 
valores, podemos identificar la curva. En la figura 8.16 se presentan distribuciones 
F tipicas. 



Figura 8.16: Distribuciones F tipicas. Figura 8.17: Ilustracion de la f a para 

la distribucion F. 


Sea f a el valor / por arriba del cual encontramos un area igual a a. Esto se ilus- 
tra mediante la region sombreada de la figura 8.17. La tabla A. 6 da valores de f a 
solo para a = 0.05 y a = 0.01 para varias combinaciones de los grados de libertad 
v\ y V 2 ■ De aqui, el valor / con 6 y 10 grados de libertad, que deja un area de 0.05 
a la derecha, es fo.05 = 3.22. Por medio del siguiente teorema, la tabla A. 6 tambien 
se puede utilizar para encontrar valores de /0.95 y fo.99- La demostracion se deja al 
lector. 


Teorema 8.7: 


Al escribir f a (v±, V2) para f a con v\ y V2 grados de libertad, obtenemos 


fi- a {vi,v 2 ) 


1 

f a {v 2,Vl)' 


Asi, el valor / con 6 y 10 grados de libertad, que deja un area de 0.95 a la derecha, 
es 


/o.95(6, 10) 


1 

/o. 05(10, 6 ) 


4.06 


= 0.246. 
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La distribucion F con dos varianzas muestrales 


Suponga que las muestras aleatorias de tamano n± y n 2 se seleccionan de dos pobla- 
ciones normales con varianzas of y of, respectivamente. Del teorema 8.4, sabemos 
que 


Xt = 


(m - i)Sf 


Xi = 


(n 2 - 1 )S% 


son variables aleatorias que tienen distribuciones chi cuadradas con v\ = n\ — 1 y 
v 2 = n 2 — 1 grados de libertad. Ademas, como las muestras se seleccionan al azar, 
tratamos con variables aleatorias independientes y, entonces, usando el teorema 8.6 
con X\ = U y Xf — V, obtenemos el siguiente resultado. 


Teorema 8.8: 


Si Sf y Sf son las varianzas de muestras aleatorias independientes de tamano n\ 
y n 2 tomadas de poblaciones normales con varianzas of y of, respectivamente, 
entonces, 


F = 


Sf 


A 


Sf/c 


’ 2^1 

rfSf 


tiene una distribucion F con v\ = ni — 1 y v 2 = n 2 — 1 grados de libertad. 


^Para que se utiliza la distribucion FI 

Contestamos esta pregunta, parcialmente, al inicio de esta section. La distribucion 
F se usa en situaciones de dos muestras para realizar inferencias acerca de las va- 
rianzas de poblacion, lo cual implica la aplicacion del resultado del teorema 8.8. 
Sin embargo, la distribucion F se aplica a muchos otros tipos de problemas en los 
cuales estan relacionadas las varianzas muestrales. De hecho, la distribucion F se 
llama distribucion de razon de varianzas. Como ilustracion, considere el ejemplo 
8.8. Se compararon dos pinturas, Ay B, con respecto a su tiempo medio de secado. 
La distribucion normal se aplica bien (suponiendo que se conocen cr^ y ob). Sin em- 
bargo, considere que hay tres tipos de pinturas para comparar, digamos A, B y C. 
Queremos determinar si las medias de las poblaciones son equivalentes. Suponga, de 
hecho, que importante informacion resumida del experimento es la siguiente: 


Pintura 

Media muestral 

Varianza muestral 

Tamano muestral 

A 

= 4.5 

= 0.20 

10 

B 

X B = 5.5 

s\ j - 0.14 

10 

C 

A c = 6.5 

s 2 c = 0.11 

10 


El problema se centra alrededor de si los promedios muestrales (xa, xb, xc ) 
estan suficientemente alejados o no. La implication de “suficientemente alejados” re- 
sulta muy importante. Pareceria razonable que si la variabilidad entre los promedios 
muestrales es mayor que lo que se esperaria por casualidad, los datos no apoyan la 
conclusion de que ha = Fb = Fc- Que estos promedios muestrales pudieran ocurrir 
por casualidad depende de la variabilidad dentro de las muestras, como cuantifican 
s\, s% y s%. La notion de los componentes importantes de la variabilidad se ve 
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mejor utilizando algunas graficas sencillas. Considere la grafica de los datos origina- 
tes de las muestras A, B y C, que se presenta en la figura 8.18. Estos datos podrian 
generar con facilidad la information de resumen anterior. 


A AAAAA A B A AB A B B B B B EEOCB C C 00 CCCC 


4.5 

5.5 

6.5 


4 



Figura 8.18: Datos de tres muestras diferentes. 


Parece evidente que los datos vienen de distribuciones con diferentes medias 
de poblacion, aunque hay alguna superposicion entre las muestras. Un analisis que 
incluya todos los datos intentaria determinar si la variabilidad entre los promedios 
muestrales y la variabilidad dentro de las muestras podria haber ocurrido conjunta- 
mente si, de hecho, las poblaciones tienen una media comun. Observe que la clave 
para este analisis se centra alrededor de las dos siguientes fuentes de variabilidad. 

1. Variabilidad dentro de las muestras (entre observaciones en muestras distintas). 

2 . Variabilidad entre muestras (entre promedios muestrales). 

Claramente, si la variabilidad en 1. es considerablemente mayor que la de 2., 
habra una superposicion considerable en los datos de la muestra y una senal de que 
los datos podrian provenir de una distribution comun. Se encuentra un ejemplo en 
el conjunto de datos que contienen tres muestras, y que se presenta en la figura 8.19. 
Por otro lado, es muy improbable que los datos de una distribution con una media 
comun puedan tener variabilidad entre promedios muestrales que sea considerable- 
mente mayor que la variabilidad dentro de las muestras. 


A B C A CB AC CAB C ACBA BABABCACBBABCC 

111 

x A x c X B 

Figura 8.19: Datos que facilmente provendrian de la misma poblacion. 


Las fuentes de variabilidad en 1 . y 2 . anteriores generan importantes razones de 
varianzas muestrales y las razones se utilizan junto con la distribution F. El proce- 
dimiento general implicado se llama analisis de varianza. Es interesante que en 
el ejemplo de la pintura que se describe aqui tratamos con inferencias acerca de tres 
medias de poblacion; aunque se utilizan dos fuentes de variabilidad. No proporciona- 
remos detalles aquf; pero en los capftulos 13, 14 y 15 utilizaremos de manera extensa 
el analisis de varianza y, desde luego, la distribution Fjuega un papel importante. 
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8.39 Para una distribution chi cuadrada encuentre 

a) X 0.025 cuando v = 15; 

b) Xo.oi cuando v = 7; 

c) Xo.o 5 cuando v = 24. 

8.40 Para una distribution chi cuadrada encuentre 
lo siguiente: 

a) Xo .005 cuando v = 5; 

b) Xo.o 5 cuando v = 19; 

c) Xo.oi cuando v = 12. 


c) Encuentre P(— 1.356 < T < 2.179) cuando v = 12. 

d) Encuentre P(T > —2.567) cuando v = 17. 

8.48 a) Encuentre P(—t 0.005 <T< to.oi) para v = 20. 
b) Encuentre P(T > — to. 025 )- 

8.49 Dada una muestra aleatoria de tamafio 24 de una 
distribution normal, encuentre k tal que 

a) P{- 2.069 < T< k) = 0.965; 

b) P(k <T< 2.807) = 0.095; 

c) P{-k < T < k) = 0.90. 


8.41 Para una distribution chi cuadrada encuentre ^ 2 
tal que 

a) P(X 2 > Xa) = 0.99 cuando v = 4; 

b) P(X 2 > xl) = 0.025 cuando v = 19; 

c) P(37.652 < X 2 < Xa) = 0.045 cuando v = 25. 

8.42 Para una distribution chi cuadrada encuentre Xa 
tal que 

a) P(X 2 > Xa) = 0.01 cuando v = 21; 

b ) P(X 2 < Xa) ~ 0.95 cuando v = 6; 

c) P(xl < X 2 < 23.209) = 0.015 cuando v = 10. 

8.43 Encuentre la probabilidad de que una muestra 
aleatoria de 25 observaciones, de una poblacion normal 
con varianza a 2 = 6, tenga una varianza s 2 

a) mayor que 9.1; 

b) entre 3.462 y 10.745. 

Suponga que las varianzas muestrales son medicio- 
nes continuas. 

8.44 Las calificaciones de un examen de colocation 
que se aplico a estudiantes de primer ano de una uni- 
versidad durante los liltimos cinco anos estan distribui- 
das aproximadamente de forma normal con una media 
/r = 74 y una varianza ct 2 = 8. ^Consideraria aun que 
cr 2 = 8 es un valor valido de la varianza si una muestra 
aleatoria de 20 estudiantes, quienes realizan tal examen 
de colocation este ano, obtienen un valor de s 2 = 20? 

8.45 Muestre que la varianza de S 2 para muestras 
aleatorias de tamano n de una poblacion normal dismi- 
nuye conforme n se hace grande. [Sugerencia: primero 
encuentre la varianza de ( n — 1 )S 2 / a 2 .] 

8.46 a) Encuentre to . 025 cuando v = 14. 

b) Encuentre —to. 10 cuando v == 10. 

c) Encuentre to . 995 cuando v = 7. 

8.47 a) Encuentre P(T < 2.365) cuando v = 7. 
b) Encuentre P(T> 1.318) cuando v = 24. 


8.50 Una empresa manufacturera afirma que las ba- 
terfas que utiliza en sus juegos electronicos duran un 
promedio de 30 horas. Para mantener este promedio, 
se prueban 16 baterfas cada mes. Si el valor t que se 
calcula cae entre —to . 025 y to. 025 , la empresa queda sa- 
tisfecha con su afirmacion. ^Que conclusiones deberia 
obtener la empresa de una muestra que tiene una me- 
dia x = 27.5 horas y una desviacion estandar s = 5 
horas? Suponga cjue la distribution de las duraciones 
de las baterfas es aproximadamente normal. 

8.51 Una poblacion normal con varianza desconocida 
tiene una media de 20. i,Se tiene posibilidad de obtener 
una muestra aleatoria de tamano 9 de esta poblacion 
con una media de 24 y una desviacion estandar de 4.1? 
Si no, f,que conclusion obtendrfa? 

8.52 Un fabricante de cierta marca de barras de ce- 
real bajo en grasa afirma que su contenido promedio de 
grasa saturada es 0.5 gramos. En una muestra aleatoria 
de 8 barras de cereal de esta marca, el contenido de 
grasa saturada fue 0.6, 0.7, 0.7, 0.3, 0.4, 0.5, 0.4 y 0.2. 
^Estarfa de acuerdo con la afirmacion? Suponga una 
distribution normal. 


8.53 

a) fo 

b) fo 

c) fo 

d) fo 

e) fo 


Para una distribution F encuentre: 
.05 con »i = 7 y r 2 = 15; 

.05 con vi = 15 y v 2 = 7; 

.01 con «i = 24 y t )2 s 19; 

.95 con vi = 19 y Vi = 24; 

.99 con ui = 28 y i >2 = 12. 


8.54 Pruebas de resistencia a la traction sobre 10 
cables conductores soldados para un dispositivo semi- 
conductor dan los siguientes resultados en libras fuerza 
requeridas para romper la union: 

19.8 12.7 13.2 16.9 10.6 

18.8 11.1 14.3 17.0 12.5 

Otro conjunto de ocho cables conductores se probo des- 
pues del encapsulado para determinar si la resistencia a 
la traction habfa aumentado debido al encapsulado del 
dispositivo, con los siguientes resultados: 
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24.9 22.8 23.6 22.1 20.4 21.6 21.8 22.5 
Haga comentarios sobre la evidencia disponible con 
respecto a la igualdad de las dos varianzas de la po- 
blacion. 

8.55 Considere las siguientes mediciones de la capa- 
cidad de production de calor del carbon producido por 

Ejercicios de repaso 

8.56 Considere los datos que se muestran en el ejerci- 
cio 1.20 de la pagina 29. Construya una grafica de caja 
y extension, y comente la naturaleza de la muestra. 
Calcule la media muestral y la desviacion estandar de 
la muestra. 

8.57 Si A'i, X 2 , . . . , X n son variables aleatorias inde- 
pendientes que tienen distribuciones exponenciales iden- 
ticas con parametro 9, muestre que la funcion de den- 
sidad de la variable aleatoria Y = X\ + A '2 • • • + X n 
es la de una distribucion gamma con parametros a = n 

y P = e. 

8.58 A1 probar el monoxido de carbono en cierta 
marca de cigarrillos, los datos, en miligramos por ciga- 
rrillo, se codificaron al restar 12 de cada observation. 
Utilice los resultados del ejercicio 8.14 de la pagina 235 
para encontrar la desviacion estandar del contenido de 
monoxido de carbono de una muestra aleatoria de 15 
cigarrillos de esta marca, si las mediciones codificadas 
son 3.8, -0.9, 5.4, 4.5, 5.2, 5.6, 2.7, -0.1, -0.3, -1.7, 
5.7, 3.3, 4.4, -0.5, y 1.9. 

8.59 Si Sf y Sf representan las varianzas de muestras 
aleatorias independientes de tarnano m = 8 y ri 2 = 12, 
tomadas de poblaciones normales con varianzas igua- 
les, encuentre P(Si/S% < 4.89). 

8.60 Una muestra aleatoria de 5 presidentes de 
bancos indico sueldos anuales de $395,000, $521,000, 
$483,000, $479,000 y $510,000. Encuentre la varianza 
de este conjunto. 

8.61 Si el numero de liuracanes que azotan cierta 
area del este de Estados Unidos por ano es una varia- 
ble aleatoria que tiene una distribucion de Poisson con 
p = 6, encuentre la probabilidad de que esta area sea 
azotada por 

а) exactamente 15 liuracanes en 2 anos; 

б) a lo mas 9 liuracanes en 2 anos. 

8.62 Una compama de taxis prueba una muestra 
aleatoria de 10 neumaticos radiales con bandas tenso- 
ras de acero de cierta marca y registra los siguientes 
desgastes de la banda: 48,000, 53,000, 45,000, 61,000, 
59,000, 56,000, 63,000, 49,000, 53,000, y 54,000 kilo- 


dos minas (en millones de calorfas por tonelada): 

Mina 1: 8260 8130 8350 8070 8340 
Mina 2: 7950 7890 7900 8140 7920 7840 
^Se puede concluir que son iguales las dos varianzas 
de poblacion? 


metros. Utilice los resultados del ejercicio 8.14 en la pa- 
gina 235 para encontrar la desviacion estandar de este 
conjunto de datos al dividir primero cada observation 
entre 1000 y despues restar 55. 

8.63 Considere los datos del ejercicio 1.19 de la pagi- 
na 28. Construya una grafica de caja y extension. Haga 
comentarios. Calcule la media muestral y la desviacion 
estandar muestral. 

8.64 Si S 1 y S 2 representan las varianzas de mues- 
tras aleatorias independientes de tarnano ni = 25 y ri 2 
= 31, tomadas de poblaciones normales con varianzas 
(j\ = 10 y <72 — 15, respectivamente, encuentre 

P{Sl/S 2 2 > 1.26). 

8.65 Considere el ejercicio 1.21 de la pagina 29. Co- 
mente cualquier valor extremo. 

8.66 Considere el ejercicio de repaso 8.56. Comente 
cualquier valor extremo en los datos. 

8.67 La resistencia a la rotura X de cierto remache 
utilizado en el motor de una maquina tiene una media 
de 5000 psi y una desviacion estandar de 400 psi. Se 
toma una muestra aleatoria de 36 remaches. Considere 
la distribucion de X, la resistencia a la rotura de la 
media muestral. 

a) ^cual es la probabilidad de que la media de la mues- 
tra caiga entre 4800 psi y 5200 psi? 

b) l Que muestra n serfa necesaria para tener 

P(4900 < X < 5100) = 0.99? 

8.68 Considere la situation del ejercicio de repaso 
8.62. Si la poblacion de la cual se tomo la muestra 
tiene una media p = 53,000 kilometros, ^aquf la infor- 
mation de la muestra parece apoyar esa afirmacion? En 
su respuesta calcule 

x - 53, 000 
1 ~ s/^TO 

y determine, consultado la tabla A. 4 (con 9 g.l.) , si el 
valor t calculado es razonable lo parece ser un evento 
raro? 
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8.69 Dos propulsores de combustible solido distintos, 
tipo A y tipo B, se consideran en una actividad del 
programa espacial. Las velocidades de combustion en 
el propulsor son fundamentales. Se toman muestras 
aleatorias de 20 especimenes de los dos propulsores con 
medias de muestra dadas por 20.5 cm/s para el pro- 
pulsor A y 24.50 cm/s para el propulsor B. Por lo ge- 
neral, se supone que la variabilidad en la velocidad de 
combustion es aproximadamente la misma para los dos 
propulsores y esta dada por una desviacion estandar de 
5 cm/s. Suponga que la velocidad de combustion para 
cada propulsor es aproximadamente normal y, por lo 
tanto, utilice el teorema del lmiite central. Nada se 
sabe acerca de las dos velocidades de combustion me- 
dias de la poblacion y se espera que este experimento 
podrfa arrojar alguna luz. 

a) Si, de hecho, pa = Pb, icual sera P(Xb — X A > 4.0)? 

b) Utilice su respuesta en el inciso a) para arrojar algu- 
na luz sobre la proposition de que pa = Pb- 

8.70 La concentracion de un ingrediente activo en el 
producto de una reaccion quiniica esta influido fuerte- 
mente por el catalizador que se usa en la reaccion. Se 
considera que cuando se utiliza el catalizador A , la con- 
centracion media de la poblacion excede 65%. Se sabe 
que la desviacion estandar es a = 5%. Una muestra de 
productos tomada de 30 experimentos independientes 
da la concentracion promedio de xa = 64.5%. 

a) ^Esta information muestral con una concentracion 
promedio de xa = 64.5% ofrece informacion inquie- 
tante de ciue quiza p A no sea 65%, sino menos de 
65%? Apoye su respuesta con una declaration de pro- 
babilidad. 

b ) Suponga que se realiza un experimento similar utili- 
zando otro catalizador, uno B. Aun se supone que la 
desviacion estandar a es 5% y xb resulta ser de 70%. 
Comente sobre si la informacion del catalizador B 
parece dar o no evidencia solida que sugiera que Pb 
es en realidad mayor que p A - Apoye su respuesta 
calculando 

P(Xb — Xa > 5.5 | ps = Pa)- 

c) Con la condition de que Pa — Pb = 65%, determine 
la distribution aproximada de los siguientes cuanti- 
les (con la media y la varianza de cada uno). Utilice 
el teorema del lmiite central. 

l)X B i 

n)X A - X B ; 


8.71 De la informacion del ejercicio de repaso 8.70, 
calcule (suponiendo Pb = 65%) 

P(X B > 70). 


8.72 Dada una variable aleatoria normal A' con me- 
dia 20 y varianza 9, y una muestra aleatoria de tamaiio 
n tomada de la distribution, ^que tamaiio de la mues- 
tra n se necesita para que 


P(19.9 < A < 20.1) = 0.95? 


8.73 En el capitulo 9 se estudiara con detenimiento 
el concepto de estimation de parametros. Suponga 
que X es una variable aleatoria con media p y varianza 
a 2 = 1.0. Ademas, suponga que se toma una muestra 
aleatoria de tamaiio n y que x se utiliza como un es- 
timado de p. Cuando se toman los datos y se rnide la 
media de la muestra, deseamos que esta este dentro de 
0.05 unidades de media real con probabilidad de 0.99. 
Es decir, aqui queremos que haya una buena probabi- 
lidad de que la x calculada de la muestra este “muy 
cercana” a la media de la poblacion (jdondequiera que 
se encuentre!), de manera que deseamos 


P(\X — p\ > 0.05) = 0.99. 


^Que tamaiio de muestra se requiere? 

8.74 Suponga que una maquina de llenado se utiliza 
para llenar envases de carton con un producto lfqui- 
do. La especificacion que es estrictamente indispensa- 
ble cumplir para el llenado de la maquina es 9 ± 1.5 
onzas. Si cualquier envase carton se produce fuera de 
tales limites de peso, el proveedor lo considera como 
defectuoso. Se espera que al menos 99% de los enva- 
ses de carton cumplira tales especificaciones. Con las 
condiciones p = 9 y a — 1, i,que proportion de envases 
de carton del proceso estan defectuosos? Si se hacen 
cambios para reducir la variabilidad, ^cuanto debe re- 
ducirse a para cumplir con las especificaciones con una 
probabilidad de 0.99? Suponga una distribution nor- 
mal para el peso. 

8.75 Considere la situation del ejercicio de repaso 
8.74. Suponga que se realiza un esfuerzo de calidad 
considerable para “apretar” la variabilidad del sistema. 
Siguiendo el esfuerzo, se toma una muestra aleatoria de 
tarnano 40 de la nueva lfnea de ensamble y la varianza 
de la muestra s 2 = 0.188 onzas 2 . ^Tenemos evidencia 
numerica solida de que a 2 se redujo por debajo de 1.0? 
Considere la probabilidad 


P(S 2 < 0.188 | a 2 = 1.0), 


y de una conclusion. 
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8.9 Nociones erroneas y riesgos potenciales; 
relacion con el material de otros capftulos 

El teorema del lfmite central es una de las herramientas mas poderosa de la esta- 
dfstica, y aun cuando este capitulo es relativamente corto, contiene una riqueza de 
informacion fundamental que se relaciona con las herramientas que se utilizan para 
lograr el equilibrio de todo el texto. 

La notion de una distribution muestral es uno de los conceptos fundamentales 
mas importantes de la estadfstica y, en este punto, el estudiante deberfa obtener por 
su estudio una comprension clara antes de continuar mas alia de este capitulo. Toclos 
los capftulos que siguen continuaran utilizando ampliamente las distribuciones mues- 
trales. Suponga que se quiere utilizar el estadfstico X para obtener inferencias acerca 
de la media de la poblacion p, lo cual se hace utilizando el valor observado x de una 
sola muestra de tamano n. Luego cualquier inferencia que se realice debe lograrse to- 
mando en cuenta no solo el valor unico, sino mas bien la estructura teorica o la dis- 
tribution de todos los valores x que podrfan observarse de las muestras 
de tamano n. Asf se presento el termino distribution muestrales, que es la base del 
teorema del lfmite central. Las distribuciones t, y 2 y F tambien se utilizan en el con- 
texto de las distribuciones muestrales. Por ejemplo, la distribution t, que se ilustra 
en la figura 8.13, representa la estructura que ocurre si se forman todos los valores 
de g/Jy, donde xy s se toman de las muestras de tamano n de una distribucion n(x; 
p, a). Se pueden hacer comentarios similares con respecto de % 2 y F, y el lector no 
deberfa olvidar que la informacion muestral que forma el estadfstico para todas estas 
distribuciones es la normal. De manera que se puede afirmar que donde haya 
una t, F, x 2 l a fuente era una muestra de una distribucion normal. 

Puede parecer que las tres distribuciones antes descritas se presentaron de una 
forma bastante autosuficiente, sin una indication de a que se refieren. No obstante, 
apareceran en la resolution de problemas practicos a lo largo del texto. 

Entonces, hay cuestiones que se deben tener presentes para evitar que haya con- 
fusion respecto de tales distribuciones muestrales fundamentales: 

i. No se puede usar el teorema del lfmite central a menos que se conozca <r. 
Cuando no se conoce a , se deberfa remplazar con s, la clesviacion estandar de 
la muestra, para usar el teorema del lfmite central, 

ii. El estadfstico T no es un resultado del teorema del lfmite central y aq, aq, . . . , 
x n deben provenir de una distribucion n(x\ p, a) para que S /J - sea una distri- 
bucion t, y s, desde luego, es tan solo una estimation de a. 

iii. En tanto que la notion de grados de libertad es nueva en este punto, el 
concepto deberfa ser muy intuitivo, ya que es razonable que la naturaleza de la 
distribucion de S y tambien t deberfa depender de la cantidad de informacion 
en la muestra x\, X 2 , ■ ■ ■ , x n . 



Capitulo 9 

Problemas de estimacion 
de una y dos muestras 


9.1 Introduccion 

En los capitulos anteriores resaltamos las propiedades del muestreo de la media y de 
la varianza muestrales. Tambien destacamos las representaciones de datos en varias 
formas. El proposito de tales presentaciones es establecer las bases que permitan a 
los estadi'sticos extraer conclusiones acerca de los parametros de la poblacion a partir 
de datos experimentales. Por ejemplo, el teorema del limite central brinda informa- 
cion sobre la distribution de la media muestral X. La distribution incluye la media 
de la poblacion fi. Asf, cualesquiera conclusiones que se obtengan con respecto a /x, 
a partir de un promedio muestral observado, deben depender del conocimiento de su 
distribucion muestral. Comentarios similares se podrian aplicar a S 2 y a 2 . Resulta 
claro que cualesquiera conclusiones que extraigamos acerca de la varianza de una 
distribucion normal probablemente implicarian la distribucion muestral de S 2 . 

En este capitulo comenzaremos por esbozar de manera formal el proposito de la 
inferencia estadistica. Seguimos con la presentation del problema de la estimacion de 
los parametros de la poblacion. Restringiremos nuestros desarrollos formales de los 
procedimientos de estimacion especificos a problemas que tengan una y dos muestras. 


9.2 Inferencia estadistica 

En el capitulo 1 presentamos la filosofia general de la inferencia estadistica formal. 
La teoria de la inferencia estadistica consiste en aquellos metodos por los que se 
realizan inferencias o generalizaciones acerca de una poblacion. La tendencia actual 
es la distincion entre el metodo clasico de estimacion de un parametro de la pobla- 
cion, mediante el cual las inferencias se basan estrictamente en informacion obtenida 
de una muestra aleatoria seleccionada de la poblacion, y el metodo bayesiano, 
que utiliza el conocimiento subjetivo previo sobre la distribucion de probabilidad de 
los parametros desconocidos junto con la informacion que proporcionan los datos 
de la muestra. A lo largo de la mayoria de este capitulo utilizaremos los metodos 
clasicos para estimar los parametros de la poblacion desconocidos, como la media, 
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proportion y la varianza, calculando estadi'sticos de muestras aleatorias y aplican- 
do la teori'a de las distribuciones muestrales, mucho de lo cual se estudio en el capi- 
tulo 8. La estimation bayesiana se examina en el capitulo 18. 

La inferencia estadistica se puede dividir en dos areas principales: estimacion y 
pruebas de hipotesis. Trataremos estas dos areas por separado: en este capitulo 
veremos la teori'a y las aplicaciones de la estimacion; y la prueba de hipotesis, en el 
capitulo 10. Para distinguir claramente entre ambas areas, considere los siguientes 
ejemplos. Un candidato a un cargo publico puede desear estimar la verdadera pro- 
portion de votantes que lo favoreceran mediante la obtencion de las opiniones de 
una muestra aleatoria de 100 de ellos. La fraction de votantes en la muestra que 
favoreceran al candidato se poclria utilizar como una estimacion de la verdadera pro- 
portion en la poblacion de votantes. El conocimiento de la distribution muestral de 
una proportion nos permite establecer el grado de precision de nuestra estimacion. 
Este problema cae en el area de la estimacion. 

Considere ahora el caso en que alguien esta interesado en averiguar si la marca 
A de cera para piso es mas resistente al desgaste que la marca B. Se puede estable- 
cer la hipotesis de que la marca A es mejor que la marca B y, despues de la prueba 
adecuada, aceptar o rechazar dicha hipotesis. En este ejemplo no intentamos estimar 
un parametro, sino que en realidad tratamos de llegar a una decision correcta acerca 
de una hipotesis preestablecida. Una vez mas, clependemos de la teori'a del muestreo 
y del uso de clatos que nos proporcionen alguna medicion de la precision de nuestra 
decision. 


9.3 Metodos clasicos de estimacion 

Una estimacion puntual de algun parametro de la poblacion 9 es un solo valor 6 de 
un estadistico 0. Por ejemplo, el valor x del estadistico X, que se calcula a partir de una 
muestra de tamaho n, es una estimacion puntual del parametro poblacional p. De 
manera similar, p = x/n es una estimacion puntual de la verdadera proportion p 
para un experimento binomial. 

No se espera que un estimador realice la estimacion del parametro poblacional 
sin error. No esperamos que X estime p exactamente, sino que en realidad esperamos 
que no este muy alejado. Para una muestra especifica es posible obtener un estimado 
mas cercano de p utilizando la mediana de la muestra X como un estimador. Consi- 
dere, por ejemplo, una muestra que consista en los valores 2, 5 y 11 de una poblacion 
cuya media es 4, pero que supuestamente se desconoce. Estimariamos p como x = 6, 
con la media muestral como nuestra estimacion, o x = 5, con la mediana muestral co- 
mo nuestra estimacion. En este caso, el estimador X produce una estimacion mas 
cercana al verdadero parametro que la del estimador X. Por otro lado, si nuestra 
muestra aleatoria contiene los valores 2, 6 y 7, entonces x = 5 y x = 6, por lo que 
X ahora es el mejor estimador. Al no conocer el valor real de p, debemos decidir de 
antemano si se utiliza X o X como nuestro estimador. 


Estimador insesgado 

^Cuales son las propiedades cleseables de una “buena” funcion de decision que in- 
human sobre nosotros para elegir un estimador en vez de otro? Sea 0 un estimador 
cuyo valor 6 es una estimacion puntual de algun parametro poblacional desconocido 
B. Ciertamente, desearfamos que la distribution muestral de 0 tuviera una media 
igual al parametro estimado. Se dice que un estimador que posee esta propiedad es 
insesgado. 
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Definicion 9.1: 


Se dice que un estadistico 0 es un estimador insesgado del parametro 9 si 

Me = E(Q) = 9. 


Ejemplo 9.1:1 Muestre que S 2 es un estimador insesgado del parametro cr 2 . 
Solucion : Escribamos 


i= 1 


E ( x ‘ - x ) 2 = - m ) - ( x - m )] 2 

t=i 

n n 

= B X * - ^ - 2(^ - m) B Xi - A») + "( x - M) 2 

n 

= Y J (X i -tf -n(X-/i) 2 . 


Entonces, 


Sin embargo, 


Por lo tanto, 




^.S 2 ) = £ 




n — 1 


7=1 


n — 1 


E £ ( x * - m ) 2 - n ^( x - m ) 2 


7=1 


= — K\ 

r»-l ^ 
\i=l 


— na X 


a\. = cr 2 para i = 1, 2, . . . ,n, y = — . 


E(S 2 ) = — - — ( na 2 - n—^\ 
n — 1 \ n J 

Aunque S 2 es un estimador insesgado de cr 2 , S, es, por otro lado, un estimador 
sesgado de a y el sesgo se vuelve insignificante en muestras grandes. Este ejemplo 
ilustra por que dividimos entre n 1 en vez de n cuando se estima la varianza. 



Varianza de un estimador puntual 

Si ©i y ©2 son clos estimadores insesgados del mismo parametro poblacional 9, elegi- 

riamos el estimador cuya distribution muestral tuviera la menor varianza. De aqui, 

si cr? < cr? , decimos que ©i es un estimador mas eficaz de 9 que 09 . 

#1 02 


Definicion 9.2: 


Si consideramos todos los posibles estimadores insesgados de algun parametro 0, el 
de menor varianza se llama estimador mas eficaz de 9. 


En la figura 9.1 ilustramos las distribuciones muestrales de 3 estimadores diferen- 
tes ©i, ©2 y © 3 , todos para 9. Resulta claro que solo ©i y 0 2 son insesgados, pues 
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sus distribuciones estan centradas en 6. El estimador @i tiene una varianza menor 
que 02 y, por lo tanto, es mas eficaz. De aquf que nuestra election de un estimador 
de 9 , entre los tres que se consideran, 0cria ©i. 



Figura 9.1: Distribuciones muestrales de estimadores diferentes de 9. 


Para poblaciones normales se puede mostrar que X y X son estimadores inses- 
gados de la media poblacional /i, pero la varianza de X es mas pequena que la 
varianza de X. De esta manera las estimaciones x y x seran, en promedio, iguales 
a la media poblacional /z, aunque es probable que x este mas cerca de /z para una 
muestra dada y, por ello, X es mas eficaz que X. 


La nocion de una estimacion por intervalo 

Es improbable que incluso el estimador insesgado mas eficaz estime con exactitud el 
parametro poblacional. Es cierto que nuestra precision aumenta con muestras gran- 
des; pero no hay razon por la cual deberfamos esperar que una estimacion puntual 
de una muestra dada sea exactamente igual al parametro poblacional que se supone 
estima. Hay muchas situaciones en que es preferible determinar un intervalo dentro 
del cual esperarfamos encontrar el valor del parametro. Tal intervalo se llama esti- 
macion por intervalo. 


Estimacion por intervalo 

La estimacion por intervalo de un parametro poblacional 9 es un intervalo de la 
forma 9l < 9 < 9jj, donde 9l y 0[/dependen del valor del estadfstico 0 para una 
muestra especffica, y tambien de la distribution de muestreo de 0 . Asf, una muestra 
aleatoria de calificaciones verbales sat para estudiantes universitarios de una clase 
de primer aho producirfa un intervalo de 530 a 550, dentro del cual esperamos en- 
contrar el promedio real de todas las calificaciones verbales del sat para tal clase. 
Los valores de los puntos extremos, 530 y 550, dependeran de la media muestral 
calculada x y de la distribution de muestreo de X. A medida de que se incrementa 
el tamaho de la muestra, sabemos que cr^. = o 2 /n disminuye y, en consecuencia, es 
probable que nuestra estimacion este mas cercana al parametro /z, lo cual tiene como 
resultado un intervalo mas pequeno. De esta manera, el intervalo estimado indica, 
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por su longitud, la precision de la estimacion puntual. Un ingeniero obtendra una 
idea de la proportion de la poblacion de artfculos clefectuosos al tomar una muestra 
y calcular la proportion de defectuosos de la muestra. No obstante, una estimacion 
por intervalo podria resultar mas informativa. 


Interpretation de la estimacion por intervalo 

Como muestras distintas, por lo general, daran valores diferentes de 0 y, por lo tan- 
to, valores diferentes de 9l y 6u, estos puntos extremos del intervalo son valores 
de las variables aleatorias correspondientes 0l y Qjj- De la distribution muestral de 
0 seremos capaces de determinar 0 l y (-)[/, de manera que P(0 l < 0 < €>u) sea 
igual a algun valor fraccional positivo que queramos especificar. Si, por ejemplo, en- 
contramos 0 l y Qu tales que 

P(0l < 0 < Qjj) = 1 — a 


para 0 < a < 1, tenemos entonces una probabilidad de 1 — a de seleccionar una va- 
riable aleatoria que produzca un intervalo que contenga 9. El intervalo 9l < 9 < 9jj , 
que se calcula a partir de la muestra seleccionada, se llama entonces intervalo de 
confianza de (1 — a)100%, la fraction 1 — a se llama coeflciente de confianza o 
grado de confianza, y los extremos, 9l y (hj- se denominan lfmites de confian- 
za inferior y superior. Asi, cuando a = 0.05, tenemos un intervalo de confianza de 
95%, y cuando a = 0.01 obtenemos un intervalo de confianza mas amplio de 99%. 
Cuanto mas amplio sea el intervalo de confianza, tendremos mayor confianza de que 
el intervalo dado contenga el parametro desconocido. Desde luego, es mejor tener 
una confianza de 95% de que la vida promedio de cierto transistor de televisor esta 
entre 6 y 7 anos, que tener una confianza de 99% de que este entre 3 y 10 anos. 
Idealmente, preferimos un intervalo corto con un grado de confianza alto. Algunas 
veces las restricciones en el tamano de nuestra muestra nos impiden tener intervalos 
cortos sin sacrificar algo de nuestro grado de confianza. 

En las secciones que siguen estudiaremos las nociones de estimacion puntual y 
por intervalo, donde cada seccion representa un caso especial diferente. El lector de- 
berfa notar que mientras la estimacion puntual y por intervalo representan diferen- 
tes aproximaciones para obtener informacion con respecto a un parametro, tambien 
se relacionan en el sentido de que los estimadores del intervalo de confianza se basan 
en estimadores puntuales. En la siguiente seccion, por ejemplo, veremos que X es un 
estimador puntual de p muy razonable. Como resultado, el importante estimador 
del intervalo de confianza de p depende del conocimiento de la distribucion muestral 
de X. 

En la siguiente seccion empezamos con el caso mas sencillo de un intervalo de 
confianza, donde el escenario es simple e incluso irreal. Nos interesa estimar una me- 
dia de la poblacion p y se desconoce a. Evidentemente, si se desconoce p es bastante 
improbable que se conozca a. Cualquier informacion historica que produzca informa- 
cion suficiente para permitir la suposicion de que se conoce a probablemente habrfa 
ofrecido informacion similar acerca de p. A pesar de este argumento, iniciamos con este 
caso porque los conceptos y, de hecho, los mecanismos resultantes asociados con la 
estimacion del intervalo de confianza permanecen constantes cuando se presenten 
situaciones mas realistas en la seccion 9.4 y en las siguientes. 
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9.4 Una sola muestra: Estimacion de la media 

La distribution muestral de X esta centrada en p y en la mayoria de las aplicacio- 
nes la varianza es mas pequena que la de cualesquiera otros estimadores de fi. Asf, 
la media muestral x se utilizara como una estimacion puntual para la media de la 
poblacion p. Recuerde que cry = <r 2 /n, por lo que una muestra grande dara un valor 
de X que provenga de una distribution muestral con varianza pequena. De aquf que 
x es probable mente una estimacion muy precisa de /i cuando n es grande. 

Consideremos ahora la estimacion por intervalo de p. Si nuestra muestra se 
selecciona a partir de una poblacion normal o, a falta de esta, si n es suficientemente 
grande, podemos establecer un intervalo de confianza para p al considerar la distri- 
bution muestral de X. 

De acuerdo con el teorema del lfmite central, podemos esperar que la distribu- 
tion muestral de X este distribuida de forma aproximadamente normal con media 
Hx = n y desviacion estandar ay = a/y/n. Al escribir z a / 2 para el valor 2 por arriba 
del cual encontramos un area de a/2, de la figura 9.2 podemos ver que 

P(-z a / 2 < Z < z a/ 2 ) = 1 - a, 

donde 

7 _ x- a 

cr/y/n ' 

Por ello, 

P (~* a/2 < V / 7I < Za/2 ) =1 ~ a - 


0/2 

1 

1 

1 

1 

1 t a 

1 

1 

1 

1 

1 

1 

1 

al 2 

~ Z a/2 

0 

Z a!2 


Figura 9.2: P(—z a / 2 < Z < z a / 2 ) — l - a. 


Al multiplicar cada termino en la desigualdad por a / yfn, y clespues restar X de 
cada termino y multiplicar por —1 (para invertir el sentido de las desigualdades) , 
obtenemos 


P 



a - 0 

■ x/2~} = < b < A + Z a / 2 —z= 


= 1 — a. 


Se selecciona una muestra aleatoria de tamano n de una poblacion cuya varianza cr 2 
se conoce y se calcula la media x para obtener el siguiente intervalo de confianza de 
(1 — a) 100%. Es importante enfatizar que recurrimos al teorema del lfmite central. 
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Intervalo 
de confianza de /i; 
con cr conocida 


Ejemplo 9.2: 


Solucion: 


Como resultado es importante clestacar las condiciones para las aplicaciones que 
siguen. 


Si x es la media de una muestra aleatoria de tamano n de una poblacion con varian- 
za <j conocida, un intervalo de confianza de (1 — a) 100% para a t esta dado por 


a 



a 

< M < X + Z a/ 2-y=, 


donde z a /2 es el valor z que deja un area de a/2 a la clerecha. 

Para muestras pequenas que se seleccionan de poblaciones no normales, no podemos 
esperar que nuestro grado de confianza sea preciso. Sin embargo, para muestras de 
tamano n > 30, donde la forma de las distribuciones no este muy sesgada, la teorfa 
de muestreo garantiza buenos resultados. 

Claramente, los valores de las variables aleatorias ©l y ©p, que se definen en la 
section 9.3, son los lfmites de confianza 

e L =x-z a/ 2 -j= y 0u = x + z a/2 



Muestras diferentes daran valores diferentes de x y, por lo tanto, produciran dife- 
rentes estimaciones por intervalo del parametro /i como se observa en la figura 9.3. 
Los puntos circulares al centro de cada intervalo indican la position de la estimacion 
puntual x para cada muestra aleatoria. Se ve que la mayorfa de los intervalos contie- 
nen /i, pero no en todos los casos. Note que todos los intervalos son del mismo ancho, 
pues esto depende solo de la election de z a / 2 una vez que se determina x. Cuanto 
mas grande sea el valor de z a / 2 que elijamos, mas anchos haremos todos los interva- 
los, y podremos tener mas confianza en que la muestra particular que se seleccione 
producira un intervalo que contenga el parametro desconocido a 1 . 


Se encuentra que la concentracion promedio de zinc que se obtiene a partir de una 
muestra de mediciones de zinc en 36 sitios diferentes es 2.6 gramos por mililitro. 
Encuentre los intervalos de confianza de 95 y 99% para la concentracion media de 
zinc en el rfo. Suponga que la desviacion estandar de la poblacion es 0.3. 

La estimacion puntual de n es x = 2.6. El valor z, que deja un area de 0.025 a la 
derecha y, por lo tanto, un area de 0.975 a la izquierda, es zo.025 = 1-96 (tabla A. 3). 
De aquf que el intervalo de confianza de 95% sea 

26 

que se reduce a 2.50 < fi < 2.70. Para encontrar un intervalo de confianza de 99%, 
encontramos el valor z que deja un area de 0.005 a la derecha y de 0.995 a la iz- 
quierda. Por lo tanto, usando la tabla A. 3 de nuevo, 20.005 = 2.575 y el intervalo de 
confianza de 99% es 


At < 2.6 + (1.96) 


(x/m) 


2.6 - (2.575) 


0.3 

V36 


< f K 2.6 + (2.575) 


0.3 

736 ’ 


o simplemente 


2.47 < At < 2.73. 



276 


Capitulo 9 Problemas de estimation de una y dos muestras 



Figura 9.3: Estimaciones por intervalo de p para muestras diferentes. 


Vemos ahora que se requiere un intervalo mas grande para estimar p con un ma- 
yor grado de confianza. 

El intervalo de confianza de (1 — a) 100% ofrece una estimation de la precision 
de nuestra estimation puntual. Si p es realmente el valor central del intervalo, en- 
tonces x estima p sin error. La mayorfa de las veces, sin embargo, x no sera exac- 
tamente igual a p y la estimation puntual sera erronea. La magnitud de este error 
sera el valor absolute de la diferencia entre p y x, de manera que podemos tener 
(1 — a) 100% de confianza de que esta diferencia no excedera z a / 2 Esto se puede 
ver con facilidad si elaboramos un diagrama de un intervalo de confianza hipotetico, 
como el de la figura 9.4. 


Error 



x-z al2 a/Vr> x I 1 x + z, J2 a/x/n 

Figura 9.4: Error en la estimation de p mediante x. 


Teore ma 9.1: Si se utiliza x como una estimacion de p, podemos tener una confianza de (1 — a) 100% 
de que el error no excedera z a / 2 ^- 

En el ejemplo 9.2 tenemos el 95% de confianza de que la media muestral x = 2.6 
difiere de la media real p en una cantidad menor que 0.1, y 99% de confianza de que 
la diferencia es menor que 0.13. 
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Con frecuencia, queremos saber que tan grande necesita ser una muestra para 
asegurarnos de que el error al estimar /i sera menor que una cantidad especifica e. 
Por el teorema 9.1, esto significa que debemos elegir n de manera que z a / 2 = e. Al 
resolver esta ecuacion se obtiene la siguiente formula para n. 


Teorema 9.2: 


Si x se usa como estimation de /z, podemos tener (1 — o)100% de confianza de 
que el error no excedera una cantidad especifica e cuando el tamano de la muestra 
sea 


n = 



Cuando se resuelve para el tamano de la muestra n, toclos los valores fractionates 
se redondean al siguiente numero entero. Si se sigue este principio, podemos estar se- 
guros de que nuestro grado de confianza nunca caera por debajo de (1 — a) 100%. 

Estrictamente hablando, la formula del teorema 9.2 se aplica solo si conocemos 
la varianza de la poblacion de la cual seleccionamos nuestra muestra. A falta de tal 
information, podriamos tomar una muestra preliminar de tamano n > 30 que pro- 
porcione una estimacion de a. Despues, usando s como aproximacion para cr en el 
teorema 9.2 podemos determinar aproximadamente cuantas observaciones se nece- 
sitan para brindar el grado de precision que se desea. 


Ejemplo 9.3:1 
Solucion: 


^Que tan grande se requiere una muestra en el ejemplo 9.2 si queremos tener 95% 
de confianza de que nuestra estimacion de /i difiera por menos de 0.05? 

La desviacion estandar de la poblacion es a = 0.3. Entonces, por el teorema 9.2, 


(1.96) (0.3) 1 2 
CK05 


138.3. 


Por lo tanto, podemos tener una confianza de 95% de que una muestra aleatoria de 
tamano 139 proporcionara una estimacion x que difiera de /i por una cantidad menor 
que 0.05. 


Lfmites de confianza unilaterales 


Los intervalos de confianza y los lfmites de confianza resultantes analizados hasta 
ahora son en realidad de bilaterales (esto es, se dan tanto el lfmite superior como el 
inferior). Sin embargo, hay muchas aplicaciones en que solo se requiere un limite. 
Por ejemplo, si la medida de interes es la resistencia a la tension, el ingeniero recibe 
mas information del lfmite inferior solamente. Este lfmite comunica el escenario 
del “peor caso” . Por otro lado, si para la medida un valor relativamente grande de 
/i no es provechoso o deseable, entonces resultara de interes el lfmite de confianza 
superior. Un ejemplo serfa el caso en el que se necesita hacer inferencias acerca de la 
composition media de mercurio en un rfo. Un lfmite superior serfa muy informativo 
en este caso. 

Los lfmites de confianza unilaterales se desarrollan de la misma forma que los 
intervalos bilaterales. Sin embargo, la fuente es un enunciado de probabilidad unila- 
teral que utiliza el teorema del lfmite central 


f X-n 

\(?/Vn 



P 


= 1 — a. 
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Entonces, es posible manipular el enunciado de probabilidad de forma muy similar 
a como se hizo anteriormente, para obtener 

P(p > X — z a cr/ y/n) = 1 — a. 

Una manipulation similar de P > — z^J = 1 — a da 

P(p < X + z a o/y/n) = l — oi. 

Como resultado, se obtienen los siguientes limites unilaterales superior e inferior. 


Lfmites 
de confianza 
unilaterales en /x; 
o desconocida 


Si X es la media de una muestra aleatoria de tamano n a partir de una poblacion 
con varianza er 2 , los limites de confianza unilaterales de (1 — a) 100% para p estan 

dados por , . . _ _ 

limite unilateral superior: x + z a o / y/n; 

limite unilateral inferior: x — z a o/yfn. 


En un estudio de pruebas psicologicas, se seleccionan al azar 25 sujetos y se mide 
su tiempo de reaccion, en segundos, ante un experimento particular. La experiencia 
pasada sugiere que la varianza en el tiempo de reaccion a estos tipos de estimulos es 
de 4 s 2 y que el tiempo de reaccion es aproximadamente normal. El tiempo promedio 
para los sujetos fue de 6.2 segundos. De un limite superior de 95% para el tiempo 
medio de reaccion. 

El limite superior de 95% esta dado por 

x + z a o/y/n = 6.2 + (1.645)^4/25 = 6.2 + 0.658 
= 6.858 segundos. 

De esta forma, tenemos un nivel de confianza de 95% de que la reaccion media sea 
menor que 6.858 segundos. 

El caso de er desconocida 

Con frecuencia intentamos estimar la media de una poblacion cuando se desconoce 
la varianza. El lector deberia recorclar que, en el capitulo 8, aprendimos que si tene- 
mos una muestra aleatoria a partir de una distribution normal, entonces la variable 
aleatoria 

T X-p 

S/y/n 

tiene una distribucion t de Student con n — 1 grados de libertad. Aqui S es la des- 
viacion estandar de la muestra. En esta situation en que se desconoce er se puede 
utilizar T para construir un intervalo de confianza de p. El procedimiento es el mis- 
mo que cuando se conoce cr excepto en que er se reemplaza con S y la distribucion 
normal estandar se reemplaza con la distribucion t,. Con referenda a la figura 9.5, 
podemos asegurar que 

P{~ta / 2 <T < t a / 2 ) = 1 — a, 

donde t a / 2 es el valor t con n — 1 grados de libertad, arriba del cual encontramos 
un area de a/2. Debido a la simetria, un area igual de a/2 caera a la izquierda de 
—t a / 2 - Y sustituyendo por T, escribimos 

p (' ~ ta/ 2 < ~S/\^ < ta/2 ) 


Ejemplo 9.4: 


Solution: 


= 1 — a. 
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A1 multiplicar cada termino en la desigualdad por S/^/n, y despues restar X de cada 
termino y multiplicar por —1, obtenemos 


P 


- S S 

X ~ = < M < X + t a /2~r= 


= 1 — a. 


Para nuestra muestra aleatoria particular de tamano n, se calculan la media x y la 
desviacion estandar s y se obtiene el siguiente intervalo de confianza de (1 — a) 100% 
para fi. 



1 

1 

1 

1 

1 t a 

1 

1 

1 

1 


a/2 

1 

1 

1 

1 

1 

1 

a/2 

~ ta/2 

0 

fa/2 


Figura 9.5: P(—t a / 2 < T < t a / 2) = 1 — a. 


Intervalo de 
confianza de /_/; 
con cr desconocida 


Si x y s son la media y la desviacion estandar de una muestra aleatoria de una 
poblacion con varianza cr 2 desconocida, un intervalo de confianza de (1 — a) 100% 
para n es 


s s 

% fa/2 /— <1 ^ < X U lct/2 5 

' v n V n 

donde t a / 2 es el valor t con v = n — 1 grados de libertad que deja un area de a/2 
a la derecha. 

Hacemos una distincion entre los casos de cr conocida y a desconocida al calcular 
las estimaciones del intervalo de confianza. Deberfamos resaltar que para el caso de 
cr conocida se utiliza el teorema del lfmite central; mientras que para cr desconocida 
usamos la distribucion muestral de la variable aleatoria T. Sin embargo, el uso de la 
distribucion t se basa en la premisa de que el muestreo se realiza de una distribucion 
normal. En tanto que la distribucion tenga aproximadamente forma de campana, 
los intervalos de confianza se pueden calcular cuando cr 2 se clesconoce utilizando la 
distribucion t y se esperarfan muy buenos resultados. 

Los lfmites de confianza unilaterales calculados para /.t con cr desconocida son 
como el lector esperarfa; a saber: 


s s 

x + t a —f= y x-t a —=. 
\Jn sjn 


Son, respectivamente los lfmites superior e inferior de (1 — a) 100%. Aquf t a es el 
valor t, que tiene un area a a la derecha. 
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Concepto de intervalo de confianza de una muestra grande 

Con mucha frecuencia los estadi'sticos recomiendan que aun cuando no se pueda su- 
poner la normalidad, con er desconocida y n > 30, s puede reemplazar a o y utilizar 
el intervalo de confianza 


s 

X =h Z a j 2 "F= 

\jn 

Por lo general, este se denomina como un intervalo de confianza de muestra grande. 
La justification yace solo en la presuncion de que con una muestra tan grande como 
30 y la distribution de la poblacion no sesgada, s estara muy cerca de la a real y, 
de esta manera, el teorema del lnnite central continua siendo valido. Se cleberfa 
destacar que esto es solo una aproximacion y que la calidad de este enfoque mejora 
conforme el tamano de la muestra crece mas. 


Ejemplo 9 . 5:1 El contenido de 7 contenedores similares de acido sulfurico es de 9.8, 10.2, 10.4, 9.8, 
10.0, 10.2, y 9.6 litros. Encuentre un intervalo de confianza de 95% para la media de 
todos los contenedores, si se supone una distribution aproximadamente normal. 
Solucion: La media muestral y la desviacion estandar para los clatos dados son 

x = 10.0 y s = 0.283. 


Con la tabla A. 4, encontramos to . 025 = 2.447 para v = 6 grados de libertad. De aquf, 
el intervalo de confianza de 95% para p es 


10.0 - (2.447) 


/ 0.283 \ 

\~7TJ 


<p< 10.0 + (2.447) 


0.283\ 

-TT)’ 


que se reduce a 9.74 < p < 10.26. 


J 


9.5 Error estandar de una estimacion puntual 

Hacemos una distincion bastante clara entre los objetivos de las estimaciones pun- 
tuales y las estimaciones del intervalo de confianza. Las primeras proporcionan un 
solo numero que se extrae de un conjunto de datos experimentales, y las ultimas 
brindan un intervalo, dados los datos experimentales, que sea razonable para el 
parametro; es decir, (1 — a) 100% de tales intervalos que se calculan “cubren” el pa- 
rametro. 

Estas dos aproximaciones a la estimacion se relational! entre sf. El “hilo comun” 
es la distribution muestral del estimador puntual. Considere, por ejemplo, el esti- 
mador X de p con a conocida. Indicamos antes que una medida de la calidad de un 
estimador insesgado es su varianza. La varianza de X es 


De esta forma la desviacion estandar de X 0 error estandar de X es a/^Jn. De mane- 
ra simple, el error estandar de un estimador es su desviacion estandar. Para el caso 
de X, el lnnite de confianza que se calcula 


x ± z 


a 



se escribe como x ± z a / 2 e.e.(ir), 
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donde “e.e.” es el error estandar. El punto importante a considerar es que el ancho 
del intervalo de confianza de p depende de la calidad del estimador puntual a traves de 
su error estandar. En el caso donde cr se desconoce y el muestreo es sobre una dis- 
tribution normal, s reemplaza a a y se incluye el error estandar estimado s/y/n. De 
esta forma, los lmiites de confianza de p son 


Lfmites de 
confianza de p 
para cr desconocida 

De nuevo, el intervalo de confianza no es mejor (en terminos de anchura) que la 
calidad de la estimation puntual , en este caso a traves de su error estandar estima- 
do. A menudo el software computacional se refiere a los errores estandar estimados 
simplemente como “errores estandar”. 

Conforme nos movemos hacia intervalos de confianza mas complejos, prevalece 
el concepto de que el ancho de los intervalos de confianza se vuelve mas corto con- 
forme mejora la calidad de la estimacion puntual correspondiente; aunque ello no 
siempre sea tan sencillo como aquf se ilustra. Se puede argumentar que un intervalo 
de confianza es tan solo una ampliation de la estimacion puntual para tomar en 
cuenta la precision de esta. 


x ± t. 


s _ 

x/2 7= X it t a j 2G.e.(x) 

v n 


9.6 Intervalos de prediccion 

Las estimaciones puntual y por intervalos de la media en las secciones 9.4 y 9.5 
ofrecen excelente information sobre el parametro desconocido p de una distribution 
normal, o de una distribution no normal a partir de la cual se toma una muestra 
grande. Algunas veces, aparte de la media de la poblacion, quizas el experimentador 
este interesado en predecir los posibles valores de una observacion futura. Por 
ejemplo, en un caso de control de calidad, el experimentador necesitarfa utilizar los 
datos observados para predecir una nueva observacion. Un proceso que produce una 
pieza de metal podrfa evaluarse con base en si la pieza cumple con las especificacio- 
nes del proceso en cuanto a resistencia a la tension. En ciertas ocasiones tal vez un 
cliente se interese en comprar una sola pieza. En este caso, un intervalo de confian- 
za de la resistencia media a la tension no cubre el requerimiento. El cliente requie- 
re un enunciado con respecto a la incertidumbre de una sola observacion. El tipo 
de requerimiento se satisface muy bien mediante la construction de un intervalo de 
prediccion. 

Es bast ante sencillo obtener un intervalo de prediccion para las situaciones que 
hemos considerado hasta el momento. Suponga que la muestra aleatoria se tomo 
de una poblacion normal con media desconocida p y varianza conocida a 2 . Un es- 
timador puntual natural de una nueva observacion es X. De la section 8.5 se sabe 
que la varianza de X es a 2 /n. Sin embargo, para predecir una nueva observacion, 
no unicamente necesitamos dar cuenta de la variation debida a la estimacion de la 
media, sino tambien deberfamos dar cuenta de la variacion de una observacion 
futura. Por la suposicion sabemos que la varianza del error aleatorio en una nueva 
observacion es cr 2 . El clesarrollo de un intervalo de prediccion se represent a mejor 
empezando con una variable aleatoria normal xq — x, donde xq es la nueva observa- 
cion y x se toma de la muestra. Como Xq y x son independientes, sabemos que 

xq — x Xq — x 

i/cr 2 + cr 2 jn cryti + 1/n 
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es n(z m , 0, 1). Como resultado, si utilizamos el enunciado de probabilidad 

P(~z a / 2 < Z < z a/2 ) = l-o 

con el estadi'stico 2 : anterior, colocamos xo en el centro del enunciado de probabili- 
dad, tenemos que el siguiente evento ocurre con probabilidad 1 — a: 

x - z a / 2 cr\/l -)- 1/n < xq < x + z a / 2 ay/l + 1 /n. 

Como resultado, el intervalo de prediccion calculado se formaliza como sigue: 


Intervalo 
de prediccion para 
una observation 
futura: 
cr conocida 


Para una distribution normal de mediciones con media desconocida /r y varianza 
conocida cr 2 , un intervalo de prediccion de (1 — a) 100% de una observation 
futura Xo es 


- z a / 2 o\J 1 + 1/n < x 0 < x + z a / 2 (j\]l + 1/n, 


donde z a / 2 es el valor z que deja un area de a/2 a la derecha. 


Ejemplo 9.6:1 A causa de la diminution en las tasas de interes, el First Citizens Bank recibio mu- 
chas solicitudes para hipoteca. Una muestra reciente de 50 creditos hipotecarios re- 
sulto en un promedio de $257,300. Suponga una desviacion estandar de la poblacion 
de $25,000. Si el siguiente cliente llamo para una solicitud de credito hipotecario, 
encuentre un intervalo de prediccion de 95% para la cantidad del credito de este 
cliente. 

Solucion: La prediccion puntual de la cantidad del credito del siguiente cliente es x = $257,300. 

El valor 2 aqui es 20.025 = 1.96. Por lo tanto, un intervalo de prediccion de 95% para 
un credito futuro es 

257300 - (1.96)(25000) v /l + 1/50 < x 0 < 257300 + (1.96) (25000 ) ^1 + 1/50, 

que da el intervalo ($207,812.43, $306,787.57). 

El intervalo de prediccion brinda una buena estimation de la ubicacion de una 
observation futura. Lo cual es bastante diferente de la estimation del valor medio de 
la muestra. Deberta notarse que la variation de esta prediccion es la suma de la va- 
riation debida a una estimation de la media y la variation de una sola observation. 
No obstante, como antes, consideramos primero el caso de la varianza conocida. De 
manera que resulta importante tratar con el intervalo de prediccion de una observa- 
tion futura en la situation en que se desconoce la varianza. De hecho, en este caso 
podrta utilizarse una distribution t de Student como en el siguiente resultado. Aqut 
simplemente se reemplaza la distribution normal con la distribution t. 


Intervalo 
de prediccion de 
una observation 
futura: 
cr desconocida 


Para una distribution normal de mediciones con media desconocida p y varianza 
desconocida cr 2 , un intervalo de prediccion de (1 — a) 100% de una observa- 
tion futura Xo es 

x - t a/2 sy/l + 1/n < x 0 < x + t a / 2 syj\ + 1/n, 


donde t a / 2 es el valor t con v = n — 1 grados de libertad, que deja un area de a/2 
a la derecha. 


Pueden utilizarse los intervalos de prediccion unilaterales, pues ciertamente se 
aplican en casos donde, digamos, es necesario enfocarse en observaciones futuras 
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grandes. Aqui se aplican los li'mites de prediccion superiores. Concentrese en las ob- 
servaciones pequenas futuras que sugieren el uso de li'mites de prediccion mas bajos. 
El lfmite superior esta dado por 


y el lfmite inferior por 


x + t a s \/ 1 + l/n 


X — t a SyJl + l/n. 


Ejemplo 9.7:1 Un inspector de alimentos midio aleatoriamente 30 paquetes de carne de res 95% sin 
grasa. La muestra resulto en una media de 96.2% con la desviacion estandar mues- 
tral de 0.08%. Encuentre un intervalo de prediccion de 99% para un paquete nuevo. 
Suponga normalidad. 

Solucion: Para v = 29 grados de libertad, t 0 .005 = 2.756. Por lo tanto, un intervalo de predic- 
cion de 99% para una observacion nueva xq es 

96.2 - (2.756X0.8)^1 + ^ < x 0 < 96.2 + (2.756X0.8)^1 + ^, 
que se reduce a (93.96, 98.44). 

Uso de lfmites de prediccion para detectar valores extremos 

Hasta el momento hemos dado poca atencion al concepto de valores extremos u 
observaciones aberrantes. La mayorfa de los investigadores son bastante sensibles 
ante la existencia de observaciones de valores extremos o tambien llamados datos 
defectuosos o “malos”. Estudiaremos con detalle el concepto en el capftulo 12, donde 
se ilustra la deteccion de valores extremos en el analisis de regresion. No obstante, 
en efecto, resulta de interes considerarlos aquf, pues existen relaciones importantes 
entre la deteccion de los valores extremos y los intervalos de prediccion. 

Para nuestros propositos es conveniente observar un valor extremo como aquel 
en que la observacion proviene de una poblacion con una media que es diferente de la 
que determina el resto de la muestra de tamano n que se estudia. El intervalo de pre- 
diccion produce un lfmite que “cubre” una sola observacion futura con probabilidad 
1 — a, si viene de la poblacion a partir de la cual se tomo la muestra. Entonces, 
una metodologfa para la deteccion de valores extremos implica la regia de que una 
observacion es un valor extremo si cae fuera del intervalo de prediccion 
calculado sin incluir la observacion cuestionable en la muestra. Como resul- 
tado. Para el intervalo de prediccion del ejemplo 9.7, si se observa un nuevo paquete 
y tiene un contenido porcentual de grasa fuera del intervalo (93.96, 98.44), como se 
muestra en esta pagina, podrfa considerarse un valor extremo. 


9.7 Lfmites de tolerancia 

Al estudiar la section 9.6 aprendimos que el cientffico o el ingeniero pueden inte- 
resarse menos en la estimation de parametros y mas en obtener una notion sobre 
donde caerfan observaciones o mediciones individuates. Entonces, el interes esta en 
los intervalos de prediccion. Sin embargo, aun hay un tercer tipo de intervalo que es 
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Lfmites de 
tolerancia 


Ejemplo 9.8: 


Solution: 


util en muchas aplicaciones. Una vez mas, suponga que el interes se centra en torno 
de la fabrication de la pieza de un componente y que existen especificaciones sobre 
una dimension de esa parte. Interesa poco la media de tal dimension. No obstante, 
a diferencia del escenario de la section 9.6, se podrla estar menos interesado en una 
sola observation y mas en donde cae la mayorfa de la poblacion. Si las especificacio- 
nes del proceso son importantes, entonces el administrador del proceso se interesara 
en el desempeno a largo plazo, no en la siguiente observation. Se debe intentar 
determinar los lfmites que en sentido probabilistic© “cubren” los valores en la pobla- 
cion (es decir, los valores que se miden de la dimension) . 

Un metodo para establecer el lfmite deseado consiste en determinar un intervalo 
de confianza sobre una proportion fija de las mediciones. Esto se motiva mejor al 
visualizar una situation en la que hacemos un muestreo aleatorio de una distribution 
normal con media conocida /i y varianza cr 2 . Evidentemente, un lfmite que cubre el 
95% central de la poblacion de observaciones es 

p ± 1.96 a. 

Esto se llama intervalo de tolerancia y, en realidad, es exacta la cobertura de 
95% de las observaciones medidas. Sin embargo, en la practica p y cr rara vez se 
conocen; por ello, el usuario debe aplicar 

x ± ks , 

y ahora, por supuesto, el intervalo es una variable aleatoria y, por consiguiente, la 
cobertura de una proportion de la poblacion disfrutada por el intervalo no es exacta. 
Como resultado se aplica un intervalo de confianza de (1 — 7)100% al planteamien- 
to, ya que no se puede esperar que todo el tiempo x ± ks cubra cualquier proportion 
especffica. Como resultado tenemos la siguiente definition. 


Para una distribution normal de mediciones con media p y clesviacion estandar cr, 
ambas desconocidas, los lfmites de tolerancia estan dados por x ± ks, donde k 
se determina de manera que se pueda asegurar con una confianza de (1 — 7)100% 
que los lfmites dados contienen al menos la proportion 1- a de las mediciones. 

La tabla A. 7 da valores de k para 1 — a = 0.90, 0.95, 0.99; 7 = 0.05, 0.01; y para 
valores seleccionados de n de 2 a 1000. 


Una maquina produce piezas de metal que tienen forma cilfndrica. Se toma una 
muestra de tales piezas y se encuentra que los diametros son 1.01 , 0.97. 1.03, 1.04, 
0.99, 0.98, 0.99, 1.01 y 1.03 centfmetros. Encuentre los lfmites de tolerancia de 99% 
que contendran 95% de las piezas de metal que produce esta maquina. Suponga una 
distribution aproximadamente normal. 

La media muestral y la desviacion estandar para los datos dados son 

x = 1.0056 y s = 0.0246. 

De la tabla A. 7 para n = 9, 1 — 7 = 0.99, y 1 — a = 0.95, encontramos k = 4.550 
para los lfmites de los dos lados. De aquf que los lfmites de tolerancia de 99% sean 


1.0056 ± (4.550)(0.0246). 
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Es decir, tenemos 99% de confianza de que el intervalo de tolerancia de 0.894 a 1.117 
contendra 95% de las piezas de metal que produce esta maquina. Es interesante no- 
tar que el correspondiente intervalo de confianza de 99% para /i (vease el ejercicio 
9.13 de la pagina 286) tiene un lfmite inferior de 0.978 y un lfmite superior de 1.033, 
lo cual verifica nuestro planteamiento anterior de que un intervalo de tolerancia 
debe necesariamente ser mayor que un intervalo de confianza con el mismo grado de 
confianza. 


Distincion entre intervalos de confianza, intervalos de prediccion 
e intervalos de tolerancia 

Es importante resaltar la diferencia entre los tres tipos de intervalos que estudiamos 
e ilustramos en las secciones anteriores. Los calculos son sencillos, aunque la inter- 
pretation podrfa resultar confusa. En aplicaciones de la vida real, tales intervalos no 
son intercambiables, ya que sus interpretaciones son bastante distintas. 

En el caso de los intervalos de confianza, solo se pone interes en la media de 
la poblacion. Por ejemplo, en el ejercicio 9.15 de la pagina 286 hay un proceso 
de ingenierfa que produce los alfileres para costura. Se establece una especificacion 
sobre la dureza de Rockwell por debajo de la cual el cliente no aceptara ningun al- 
filer. Aquf, un parametro poblacional debe tener un respaldo. Es importante que el 
ingeniero sepa donde van a estar la mayoria de los valores de la dureza de Rockwell. 
De manera que deberfan utilizarse los lfmites de tolerancia. Seguramente cuando los 
lfmites de tolerancia en cualquier producto del proceso son mas rigurosos que las 
especificaciones del proceso, entonces las noticias son buenas para el administrador 
del proceso. 

Es verclad que la interpretation del lfmite de tolerancia se relaciona un poco con el 
intervalo de confianza. El intervalo de tolerancia de (1 — a) 100% sobre, digamos, la 
proportion 0.95 se puede ver como un intervalo de confianza sobre el 95 % central 
de la distribution normal correspondiente. Los lfmites de tolerancia unilaterales tam- 
bien son relevantes. En el caso del problema de dureza de Rockwell se clesearfa tener 
un lfmite inferior de la forma x = ks, tal que tengamos el “99% de confianza de que 
al menos 99% de los valores de la dureza de Rockwell excedera el valor calculado” . 

Los lfmites de prediccion se aplican cuando es importante determinar un lfmite 
para un solo valor. Ni la media ni la ubicacion de la mayorfa de la poblacion son 
la cuestion clave. Mas bien se requiere la ubicacion de una sola nueva observation. 


Ej ercicios 

n _ 

9.1 Definamos S' 2 = (V, — X) 2 /n. Muestre que 

»=i 

E(S' 2 ) = [(n — l)/n](j 2 , 

y de aquf que S' 2 es un estimador sesgado para a 2 . 

9.2 Si X es una variable aleatoria binomial, demues- 
tre que 

a) P = X/n es un estimador insesgado de p\ 

b) P' = es un estimador sesgado de p. 


9.3 Muestre que el estimador P' del ejercicio 9.2 b) se 
vuelve insesgado conforme n — » oo. 

9.4 Una empresa de material electrico fabrica bonibi- 
llas de luz ciue tienen una duration aproximadamente 
distribuida de forma normal, con una desviacion estan- 
dar de 40 horas. Si una muestra de 30 bombillas tiene 
una duration promedio de 780 horas, encuentre un in- 
tervalo de confianza de 96% para la media de la pobla- 
cion de todas las bombillas que produce esta empresa. 

9.5 A muchos pacientes con problemas cardiacos se les 
implanto un marcapasos para controlar su ritmo cardiaco. 
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Se monta un modulo conector de plastico sobre la parte 
superior del marcapasos. Suponiendo una desviacion es- 
tandar de 0.0015 y una distribution aproximadamente 
normal, encuentre un intervalo de confianza de 95% para 
la media de todos los modulos conectores que fabrica 
cierta compam'a de manufactura. Una muestra aleatoria 
de 75 modulos tiene un promedio de 0.310 pulgadas. 

9.6 Las estaturas de una muestra aleatoria de 50 es- 
tudiantes de una universidad muestra una media de 
174.5 centfmetros y una desviacion estandar de 6.9 cen- 
tfmetros. 

a) Construya un intervalo de confianza de 98% para la 
estatura media de todos los estudiantes de la univer- 
sidad. 

b) iQue podemos afirmar con 98% de confianza sobre 
el tamano posible de nuestro error, si estimamos que 
la estatura media de todos los estudiante de la uni- 
versidad es 174.5 centfmetros? 

9.7 Una muestra aleatoria de 100 propietarios de au- 
tomoviles muestra que, en el estado de Virginia, un 
automovil se maneja, en promedio, 23,500 kilometros 
por ano con una desviacion estandar de 3900 kilome- 
tros. Suponga que la distribution de las mediciones es 
aproximadamente normal. 

a) Construya un intervalo de confianza de 99% para el 
numero promedio de kilometros que se maneja un 
automovil anualmente en Virginia. 

b) iQue puede afirmar con 99% de confianza acerca del 
tamano posible de nuestro error, si estimamos que 
el numero promedio de kilometros manejados por 
lo propietarios de automoviles en Virginia es 23,500 
kilometros por ano? 

9.8 iDc que tamano se necesita una muestra en el 
ejercicio 9.4 si deseamos tener 96% de confianza de que 
nuestra media muestral este dentro de 10 horas de la 
media real? 

9.9 iDc que tamano se necesita una muestra en el 
ejercicio 9.5 si deseamos tener 95% de confianza de que 
nuestra media muestral este dentro de 0.0005 pulgada 
de la media real? 

9.10 Un experto en eficiencia desea determinar el tiem- 
po promedio que toma perforar tres hoyos en cierta pla- 
ca metalica. ^De que tamano se necesita una muestra 
para tener 95% de confianza de que esta media muestral 
este dentro de 15 segundos de la media real? Suponga 
que por estudios previo se sabe que a = 40 segundos. 

9.11 Un investigador de la ucla afirma que la vida de 
los ratones se puede extender hasta en 25% cuando se 
reducen las calorfas en su alimento en aproximadamen- 
te 40%, desde el momento en que se les desteta. Las 
dietas restringidas se enriquecen a niveles normales con 
vitaminas y protefnas. Suponiendo que por estudios 
previos se sabe que a = 5.8 meses, ^cuantos ratones se 
deberfan incluir en nuestra muestra, si deseamos tener 
99% de confianza de que la vida media de la muestra 
este dentro de 2 meses de la media de la poblacion para 
todos los ratones sujetos a la dieta reducida? 


9.12 El consumo regular de cereales preendulzados 
contribuye a la caida de los dientes, a las enfermeda- 
des cardiacas y a otras enfermedades degenerativas, 
segun estudios realizados por el doctor W. H. Bowen 
del Instituto National de Salud y el doctor J. Yudben, 
profesor de nutrition y dietetica de la Universidad de 
Londres. En una muestra aleatoria de 20 porciones sen- 
cillas similares del cereal Alpha-Bits, el contenido pro- 
medio de azucar fue de 11.3 gramos con una desviacion 
estandar de 2.45 gramos. Suponiendo que el contenido 
de azucar esta distribuido normalmente, construya un 
intervalo de confianza de 95% para el contenido medio 
de azucar para porciones sencillas de Alpha-Bits. 

9.13 Una maquina produce piezas metalicas de forma 
cilfndrica. Se toma una muestra de las piezas y los dia- 
metros son 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01 y 
1.03 centimetros. Encuentre un intervalo de confianza 
de 99% para el diametro medio de las piezas de esta 
maquina. Suponga una distribution aproximadamente 
normal. 

9.14 Una muestra aleatoria de 10 barras de chocolate 
energetico de cierta marca tiene, en promedio, 230 ca- 
lorfas con una desviacion estandar de 15 calorfas. Cons- 
truya un intervalo de confianza de 99% para el con- 
tenido medio de calorfas real de esta marca de barras 
de chocolate energetico. Suponga que la distribution de 
las calorfas es aproximadamente normal. 

9.15 Se toma una muestra aleatoria de 12 alfileres 
para costura en un estudio de dureza de Rockwell en 
la cabeza de los alfileres. Se realizaron mediciones de la 
dureza de Rockwell para cada una de las 12, lo cual dio 
un valor promedio de 48.50 con una desviacion estan- 
dar muestral de 1.5. Suponiendo que las mediciones se 
distribuyen de forma normal, construya un intervalo de 
confianza de 90% para la dureza de Rockwell media. 

9.16 Una muestra aleatoria de 12 graduadas de cier- 
ta escuela secretarial teclearon un promedio de 79.3 
palabras por minuto, con una desviacion estandar de 
7.8 palabras por minuto. Suponiendo una distribution 
normal para el numero de palabras que se teclea por 
minuto, encuentre un intervalo de confianza de 95% 
para el numero promedio de palabras tecleadas por to- 
das las graduadas de esta escuela. 

9.17 Una muestra aleatoria de 25 botellas de aspiri- 
nas contiene, en promedio, 325.05 mg de aspirina con 
una desviacion estandar de 0.5. Encuentre los lfmites 
de tolerancia de 95% que contendran 90% del conteni- 
do de aspirina para esta marca. Suponga que el conte- 
nido de aspirina se distribuye normalmente. 

9.18 Las siguientes mediciones se registraron para el 
tiempo de secado, en horas, de cierta marca de pintura 
latex: 


3.4 

2.5 

4.8 

2.9 

3.6 

2.8 

3.3 

5.6 

3.7 

2.8 

4.4 

4.0 

5.2 

3.0 

4.8 


Suponiendo que las mediciones representan una mues- 
tra aleatoria de una poblacion normal, encuentre los 
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h'mites de tolerancia de 99% que contendran 95% de 
los tiempos de secado. 

9.19 Refierase al ejercicio 9.7 y construya un interva- 
lo de tolerancia de 99% que contenga 99% de las millas 
que recorren los automoviles anualmente eii Virginia. 

9.20 Refierase al ejercicio 9.15, construya un inter- 
valo de tolerancia de 95% que contenga 90% de las 
mediciones. 

9.21 En la seccion 9.3 destacamos la notion del “es- 
timador mas eficaz” comparando la varianza de dos 
estimadores insesgados <~k y © 2 . Sin embargo, ello no 
toma en cuenta el sesgo en el caso de que uno o ambos 
estimadores no sean insesgados. Considere la cantidad 

ecm = E(Q - 9), 

donde ecm denota el error cuadrado medio. El error 
cuadrado medio a menudo se utiliza para comparar dos 
estimadores ©1 y ©2 de 9, cuando uno o ambos son in- 
sesgados porque i. ello es intuitivamente razonable y ii. 
se toma en cuenta para el sesgo. Demuestre que el ecm se 
puede escribir como 

ECM = E[<3> - E(Q)} 2 + [£(© - <9)f 
= Var(Q) + [sesgo(0)] 2 . 

9.22 Considere el ejercicio 9.1 y S' 2 , el estimador de 
a 2 . El analista a menudo utiliza S' 2 en vez de dividir 

n _ 

Y^(Xi — X) 2 entre n — 1, los grados de libertad en la 

i= 1 

muestra. 

a) i,Cual es el sesgo de S' 2 ? 

b) Demuestre que el sesgo de S’ 2 se aproxima a cero 
conforme n —> o o. 

9.23 Compare S 2 y S' 2 (vease el ejercicio 9.1), los 
dos estimadores de a 2 , para determinar cual es mas 
eficaz. Suponga que son estimadores que se encuentran 
usando X\, X 2 , ■ ■ . , X n , las variables aleatorias inde- 
pendientes de n(x; fj,, a). ^Cual es el estimador mas 
eficaz considerando solo la varianza de los estimadores? 
[Sugerencia: Utilice el teorema 8.4 y la seccion 6.8 don- 
de aprendimos que la varianza de x 2 es 2v.] 

9.24 Considere el ejercicio 9.23. Utilice el ecm que se 
estudio en el ejercicio 9.21 para determinar que estima- 
dor es mas eficaz. De hecho, escriba 

ECM^ 2 ) 

ecm(5' 2 ) ’ 

9.25 Considere el ejercicio 9.12. Calcule un intervalo 
de prediction de 95% para el contenido de azucar de la 
siguiente portion sencilla del cereal Alpha-Bits. 


9.26 Considere el ejercicio 9.16. Calcule el intervalo 
de prediction de 95% para el siguiente numero obser- 
vado de palabras por minuto tecleado por un miembro 
del secretariado escolar. 

9.27 Considere el ejercicio 9.18. Calcule un intervalo 
de prediction de 95% en una nueva medicion observada 
del tiempo de secado de la pintura latex. 

9.28 Considere la situation del ejercicio 9.13. Aunque 
la estimation del diametro medio sea importante, no es 
ni con mucho tan importante como intentar “determi- 
nar” la ubicacion de la mayorfa de la distribution de 
los diametros. Para tal fin, encuentre los h'mites de to- 
lerancia de 95% que contengan 95% de los diametros. 

9.29 En un estudio realizado en el Departamento de 
Zoologfa del Virginia Tech, se recolectaron 15 “rnues- 
tras” de agua de una determinada estacion en el rfo 
James, con la finalidad de conocer la cantidad de orto- 
fosforo en el rfo. La concentration del qufmico se mide 
en miligramos por litro. Supongamos que la media en 
la estacion no es tan importante como los extremos 
superiores de la distribution del qufmico en la estacion. 
El interes se centra en saber si las concentraciones en 
estos extremos son demasiado elevadas. Las lecturas 
de las 15 muestras de agua dieron una media muestral de 
3.84 miligramos por litro y una desviacion estandar 
de 3.07 miligramos por litro. Suponga que las lecturas 
son una muestra aleatoria de una distribution normal. 
Calcule un intervalo de prediction (li'mite de prediction 
superior de 95%) y un li'mite de tolerancia (un li'mite 
de tolerancia superior de 95% que excede 95% de la 
poblacion de valor). Interprete ambos; esto es, diga que 
nos comunican acerca de los extremos superiores de la 
distribution de ortofosforo en la estacion de muestreo. 

9.30 Un determinado tipo de liilo se somete a estu- 
dio para conocer sus propiedades de resistencia a la 
tension. Se probaron 50 piezas en condiciones similares 
y los resultados mostraron una resistencia a la tension 
promedio de 78.3 kilogramos y una desviacion estan- 
dar de 5.6 kilogramos. Suponiendo una distribution 
normal de la resistencia a la tension, de un intervalo de 
prediction inferior de 95% en un unico valor observado 
de resistencia a la tension. Ademas, determine un lfmi- 
te inferior de tolerancia de 95% que sea excedido por 
99% de los valores de resistencia a la tension. 

9.31 Remftase al ejercicio 9.30. ^Por que las canti- 
dades solicitadas en el ejercicio parecen ser mas im- 
portantes para el fabricante del liilo que, por ejemplo, 
un intervalo de confianza en la resistencia media a la 
tension? 

9.32 Renu'tase una vez mas al ejercicio 9.30. Supon- 
ga que las especificaciones de un comprador del hilo son 
que la resistencia a la tension del material debe ser, 
por lo menos, de 62 kilogramos. El fabricante esta sa- 
tisfecho si, cuando mucho, el 5% de las piezas pro- 
ducidas tienen una resistencia a la tension menor de 



288 


Capitulo 9 Problemas de estimation de una y dos muestras 


62 kilogramos. ^Hay alguna razon para preocuparse? 
Esta vez utilice un li'mite de tolerancia unilateral de 
99% que sea excedido por 95% de los valores de resis- 
tencia a la tension. 

9.33 Considere las medidas del tiempo de secado del 
ejercicio 9.18. Suponga que las 15 observaciones en el 
conjunto de datos tambien incluyen un 16o. valor de 
6.9 boras. En el contexto de las 15 observaciones origi- 


nales, ^el decimosexto es un valor extremo? Demuestre 
su trabajo. 

9.34 Considere los datos del ejercicio 9.15. Suponga 
que el fabricante de los alflleres insiste en que la dureza 
del producto sera tan baja o mas que el valor de 44.0 
solo un 5% de las veces. ^.Cual es su reaction al respec- 
to? Realice el calculo de un li'mite de tolerancia para 
determinar su veredicto. 


9.8 Dos muestras: Estimacion de la diferencia entre dos medias 

Si tenemos clos poblaciones con medias pi y P 2 y varianzas cr\ y <j\, respectivamen- 
te, un estimador puntual de la diferencia entre pi y p 2 esta dado por el estadistico 
X± — X 2 . Por lo tanto, para obtener una estimacion puntual de pi — P 2 , seleccio- 
naremos dos muestras aleatorias independientes, una de cada poblacion, de tamaiios 
n\ y ri 2 , y calculamos la diferencia x\ — x-i- de las medias muestrales. Evidentemen- 
te, debemos considerar las distribuciones muestrales de X\ — X 2 . 

De acuerdo con el teorema 8.3, podemos esperar que la distribution mues- 
tral de X\ — X 2 este distribuida de forma aproximadamente normal con media 
Px 1 -x 2 = bi — P 2 y desviacion estandar (J Xl -x 2 = v /f7 i/ n i + cr 2 / n 2 - P° r 1° tanto, 
podemos asegurar con una probabilidad de 1— a que la variable normal estandar 

^ (Xi - X 2 1 - (P! - p 2 ) 

\/af7«TTaf7^2 

caera entre —z a / 2 y z a / 2 . Con referenda una vez mas a la figura 9.2, escribimos 

P{~z a / 2 < Z < z a/ 2 ) = 1 - a. 

Al sustituir para Z , establecemos de manera equivalente que 


P 



(Ar - X 2 ) - ( Pi - P2) 
\fo\fn\ + a l/n 2 



1 — a, 


que conduce al siguiente intervalo de coufianza de (1 — a) 100% para pi — p 2 - 


Intervalo de 
confianza para 
Pi - P2\ con o\ y 
a 2 conocidas 


Si x\ y x 2 son las medias de muestras aleatorias independientes de tamaiios rq y 
712 de poblaciones con varianzas conocidas (Jj y o^, respectivamente, un intervalo 
de confianza de (1 — a) 100% para p\ — p x esta dado por 


(xi - x 2 ) 



H — < Pl — P 2 < (24 — X2) + Z a / 2 

n 2 



donde z a / 2 es el valor z que deja un area de a/2 a la derecha. 

El grado de confianza es exacto cuando las muestras se seleccionan de poblacio- 
nes normales. Para poblaciones no normales, el teorema del li'mite central permite 
una buena aproximacion para muestras de tamaiios razonables. 
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Las condiciones experimentales y la unidad experimental 

Para el caso de la estimation de un intervalo de confianza sobre la diferencia entre 
dos medias, necesitamos considerar las condiciones experimentales del proceso de 
recoleccion de datos. Se supone que tenemos dos muestras aleatorias independientes 
de distribuciones con medias / j. i y fi 2 , respectivamente. Es importante que las con- 
diciones experimentales simulen este “ideal” clescrito por las suposiciones tan cerca 
como sea posible. Muy a menudo el experimentador deberia planear la estrategia 
del experimento en consecuencia. Para casi cualquier estudio de este tipo, hay una 
llamada unidad experimental , que es la parte del experimento que produce el error 
experimental y que es responsable de la varianza de la poblacion que denominamos 
a 2 . En un estudio medico, la unidad experimental es el paciente o el sujeto. En un 
experimento de agricultura, puede ser una superficie de tierra. En un experimento 
qumiico, puede ser una cantidad de materias primas. Resulta importante que las 
diferencias entre tales unidades tengan un impacto mi'nimo sobre los resultados. El 
experimentador tendra un grado de seguridad de que las unidades experimentales 
no sesgaran los resultados, si las condiciones que definen a las dos poblaciones se 
asignan al azar a las unidades experimentales. De nuevo nos concentraremos en la 
aleatoriedad en los siguientes capitulos que tratan de la prueba de hipotesis. 


Ejemplo 9.9:1 Se lleva a cabo un experimento donde se comparan dos tipos de motores, Ay B. Se 
mide el rendimiento de combustible en millas por galon. Se realizan 50 experimentos 
con el motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las demas 
condiciones se mantienen constantes. El rendimiento promedio de gasolina para el 
motor A es de 36 millas por galon, y el promedio para el motor B es de 42 millas 
por galon. Encuentre un intervalo de confianza de 96% sobre hb — PA, donde ha y 
Hb son el rendimiento de combustible medio poblacional para los motores A y B, 
respectivamente. Suponga que las desviaciones estandar poblacionales son 6 y 8 para 
los motores A y B, respectivamente. 

Solucion: La estimation puntual de Hb — HA es Xb — xa — 42 — 36 = 6. Usando a = 0.04, 
encontramos 20.02 = 2.05 de la tabla A. 3. De aquf, con la sustitucion en la formula 
anterior, el intervalo de confianza de 96% es 


64 36 


6 “ 2 ' 05 V i + i <Ms-/M<6 + 2 - 05 V 75 + 50 ’ 

o simplemente 3.43 < hb — Ha < 8.57. 

Este procedimiento para estimar la diferencia entre dos medias se aplica si se 
conocen a 2 y <j\. Si las varianzas no se conocen y las dos distribuciones implicadas 
son aproximadamente normales, la distribution t resulta implicada como en el caso 
de una sola muestra. Si no se esta dispuesto a suponer normalidad, muestras grandes 
(digamos mayores que 30) permitiran usar si y S 2 en vez de o\ y 0 % respectivamen- 
te, con el fundamento de que Si « ui, y S 2 « 02 . De nuevo, por supuesto, el intervalo 
de confianza es aproximado. 


Varianzas desconocidas 


Considere el caso donde se desconocen a\ y u\. Si a 2 
variable normal estandar de la forma 


(Ai — X 2 ) — (h 1 — M 2 ) 
y/cr 2 [(1/m) + (l/n 2 )\ 


2 

ct 2 


cr 2 , obtenemos una 
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De acuerdo con el teorema 8.4, las dos variables aleatorias 

(ni - 1 )5? (n 2 - 1 )5? 

G 2 Y G 2 

tienen distribuciones chi cuadrada con m — 1 y n 2 — 1 grados de libertad, respecti- 
vamente. Ademas, son variables chi cuadradas independientes, ya que las muestras 
aleatorias se seleccionaron de forma independiente. En consecuencia, su suma 

_ (ni - 1)5? (n 2 - 1)5? _ (m - 1)5? + (n 2 - 1)5? 

G 2 ' G 2 G 2 

tiene una distribucion chi cuadrada con v = ni + n 2 — 2 grados de libertad. 

Como se puede mostrar que las expresiones anteriores para Z y V son indepen- 
dientes, del teorema 8.5 se sigue que el estadistico 

„ (Ai - X 2 ) - (mi - M 2 ) , j (ni - 1)5? + (n 2 - 1)5? 

\J cr 2 [(l/ni) + (l/n 2 )] V u 2 (ni + n 2 — 2) 

tiene la distribucion t con v\ = n\ + n 2 — 2 grados de libertad. 

Se puede obtener una estimation puntual de la varianza comun desconocida tr 2 
al reunir las varianzas muestrales. Denotemos al estimador de union con S 2 p y escri- 
bimos, entonces, 


Estimado de union 
de la varianza 


2 = (ni - 1)5? + (n 2 - 1)5? 
p ni +n 2 -2 

Al sustituir S 2 en el estadistico T, obtenemos la forma menos incomoda: 


(Ai — X 2 ) — (pi — H 2 ) 
SpV (l/ n i) + (l/n 2 ) 


Usando el estadistico T, tenemos 


P(~ta/2 <T < t a / 2 ) — 1 — a, 


donde t a / 2 es el valor t con n\ + n 2 — 2 grados de libertad, por arriba del cual encon- 
tramos un area de a/2. Al sustituir para T en la desigualdad, escribimos 


P 


(Aj — A 2 ) — (p 1 — fi 2 ) 
S p ^/(l/ni) + (l/n 2 ) 


< ta/2 


1 — a. 


Despues de llevar a cabo las manipulations matematicas de costumbre, se calculan 
la diferencia de las medias muestrales x\ — x 2 y la varianza unida, y se obtiene el 
siguiente intervalo de confianza de (1 — a) 100% para p 1 — /i 2 . 

Se ve con facilidad que el valor de s p es un promedio ponderado de las dos va- 
rianzas muestrales s \ y s 2 , donde los pesos son los grados de libertad. 
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Intervalo 

de confianza 

para // 1 - /.x 2 ; 
2 2 
con o - ! = (J 2 

pero desconocidas 


Ejemplo 9.10: 


Solucion: 


Si xi y x 2 son las medias de muestras aleatorias independientes con tamanos ni 
y 712, respectivamente, de poblaciones aproximadamente normales con varianzas 
iguales pero desconocidas, un intervalo de confianza de (1 — a) 100% para fj , i — [i 2 
esta dado por 


(xi - x 2 ) - t a / 2 s p \ — + — < m - fj, 2 < {xx 
V n i n 2 


x 2) + t a /2Sp 



donde s p es la estimation de union de la desviacion estandar poblacional y t a / 2 
es el valor t con v = m + n 2 — 2 grados de libertad, que cleja un area de a/2 a 
la derecha. 


En el artfculo “Macroinvertebrate Community Structure as an Indicator of Acid 
Mine Pollution”, publicado en el Journal of Environmental Pollution, se ofrece un 
reporte sobre una investigation realizada en Cane Creek, Alabama, para determinar 
la relation entre parametros fisioqufmicos seleccionados y diversas mediciones de la 
estructura de la comunidad de macroinvertebrados. Una faceta de la investigation 
fue una evaluation de la efectividad de un rndice numerico de la diversidad de es- 
pecies, para indicar la degradation del agua debida al desagiie acido de una mina. 
Conceptualmente, un rndice alto de la diversidad de especies macroin vertebradas 
deberfa indicar un sistema acuatico no contaminado; mientras que un rndice de 
diversidad baja indicarfa un sistema acuatico contaminado. 

Se eligieron 2 estaciones de muestreo independientes para dicho estudio: una que 
se localiza corriente abajo del punto de descarga acida de la mina y la otra ubicada 
corriente arriba. Para 12 muestras mensuales reunidas en la estacion corriente abajo, 
el rndice de diversidad de especies tuvo un valor medio xi = 3.11 y una desviacion 
estandar si = 0.771; mientras que 10 muestras reunidas mensualmente en la esta- 
cion corriente arriba tuvieron un valor medio del fndice x 2 = 2.04 y una desviacion 
estandar s 2 = 0.448. Encuentre un intervalo de confianza de 90% para la diferencia 
entre las medias poblacionales para los dos sitios, suponiendo que las poblaciones 
estan distribuidas de forma aproximadamente normal con varianzas iguales. 
Representemos con /.xi y /x 2 las medias poblacionales, respectivamente, para los in- 
dices de diversidad de especies en las estaciones corriente abajo y corriente arriba. 
Deseamos encontrar un intervalo de confianza de 90% para /x 2 — /i 2 . Nuestra esti- 
macion puntual de fii — /i 2 es 

X! - x 2 = 3.11 - 2.04 = 1.07. 

La estimacion de la union, s 2 p , de la varianza comun, a 2 , es 

2 = (m - 1)4 + (n 2 - l)sj = (11)(0.771 2 ) + (9)(0.448 2 ) = 
p ni+n 2 - 2 12+10-2 

Al tomar la rafz cuadrada, obtenemos s p = 0.646. Usando a = 0.1, encontramos en 
la tabla A. 4 que to. 05 = 1.725 para v = ni + n 2 — 2 = 20 grados de libertad. Por lo 
tanto, el intervalo de confianza de 90% para /zi — /i 2 es 

1.07 - (1.725)(0.646)^ + ^ < m - /x 2 

< 1.07+(1.725)(0.646)^ + ^. 
que se simplifica 0.593 < pi — /x 2 < 1.547. 
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Interpretacion del intervalo de confianza 

Para el caso de un solo parametro, el intervalo de confianza simplemente produce lf- 
mites de error sobre el parametro. Los valores contenidos en el intervalo se cleberfan 
ver como valores razonables dados los datos experimentales. En el caso de una di- 
ferencia entre dos medias, la interpretacion se puede extender a una de compara- 
cion de las dos medias. Por ejemplo, si tenemos gran confianza en que una diferencia 
pi — P 2 es positiva, realmente inferiremos que p\ > P 2 con poco riesgo de incurrir 
en un error. De esta forma, en el ejemplo 9.10 tenemos una confianza de 90% de que 
el intervalo de 0.593 a 1.547 contiene la diferencia de las medias poblacionales, para 
valores del fndice de diversidad de especies en las dos estaciones. El hecho de que 
ambos lfmites de confianza sean positivos indica que, en promedio, el fndice para la 
estacion que se localiza corriente abajo del punto de descarga es mayor que el fndice 
para la estacion que se localiza corriente arriba. 


Tamanos iguales de muestras 

El procedimiento para construir intervalos de confianza para p\ — p 2 con o\ 
= 02 = cr desconocidas requiere la suposicion de que las poblaciones son normales. 
Desviaciones ligeras de la suposicion de varianzas iguales o de normalidad no alteran 
seriamente el grado de confianza de nuestro intervalo. (En el capitulo 10 se estudia 
un procedimiento para probar la igualdad de dos varianzas poblacionales descono- 
cidas con base en la information que proporcionan las varianzas muestrales.) Si las 
varianzas poblacionales son considerablemente diferentes, aun obtenemos resultados 
razonables cuando las poblaciones son normales, dado que n\ = n 2 - Por lo tanto, 
en un experimento planeado se deberfa hacer un esfuerzo para igualar el tamano de 
las muestras. 


Varianzas distintas 

Consideremos ahora el problema de encontrar una estimation por intervalos de — /i 2 
cuando no es probable que las varianzas poblacionales desconocidas sean iguales. El 
estadfstico que se utiliza con mayor frecuencia en este caso es 

rpl _ (V ~ ^2) - (pi - P2) 

+ \s2ln2) ’ 

que tiene aproximadamente una distribution t con v grados de libertad, donde 

{s\/n 1 + sl/n 2 ) 2 

V ~ [{sl/mY/im- l)) + [{sl/n 2 y/{n 2 -l)\ 

Como v rara vez es un entero, lo redondeamos (hacia abajo) al numero entero mas 
cercano. 

Con el estadfstico T', escribimos 


P{~ta/2 < T' < ta/ 2 ) ~ 1 ~~ O!, 


donde t a /2 es el valor de la distribucion t con v grados de libertad, arriba del cual 
encontramos un area de a/2. Al sustituir para T' en la desigualdad, y al seguir los 
pasos exactos como antes, establecemos el resultado final. 
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Intervalo de 
confianza para 
Mi - M2; o\ ^ u\ 
y desconocidas 


Ejemplo 9.11: 


Solution: 


Si X\ y s\ y x 2 y s\ son las medias y varianzas de muestras aleatorias indepen- 
dientes de tamanos m y n% respectivamente, de poblaciones aproximadamente 
normales con varianzas desconocidas y diferentes, un intervalo de confianza aproxi- 
mado del (1 — a) 100% para Mi — M 2 esta dado por 


{xi - x 2 ) - t a/ 2 



< Mi - M 2 < (xi - x 2 ) + t a/ 2 



donde t a / 2 es el valor t con 


* [( S ?/m)V(n ( i -1)] + [(fl/n 2 )V(n 2 - 1)] 

grados de libertad, que cleja un area a/2 a la derecha. 

Observe que el valor v anterior incluye variables aleatorias y, por ello, representa 
una estimation de los grados de libertad. En las aplicaciones dicha estimacion no 
sera un numero entero, de manera que el analista lo clebe redondear al siguiente 
entero para tener la confianza que se desea. 

Antes de ilustrar el intervalo de confianza anterior con un ejemplo, deberfamos 
senalar que todos los intervalos de confianza sobre Mi — M 2 son de la misma forma 
general, como los de una sola media; a saber, se pueden escribir como 

estimacion puntual ± t a / 2 eTe. (estimacion puntual) 


o 


estimacion puntual ± z a /2 e.e. (estimacion puntual). 

Por ejemplo, en e l caso donde 01 = <j 2 = a, el error estandar estimado de x\ — x 2 es 
s p \fl/ni + l/n 2 - Para el caso donde a\ ^ o 2 , 


e.e.(iri - x 2 ) 



El Departamento de Zoologfa del Instituto Politecnico y Universidad Estatal de Vir- 
ginia llevo a cabo un estudio para estimar la diferencia en la cantidad de ortofosforo 
qufmico medido en dos estaciones diferentes del rfo James. El ortofosforo se mide en 
miligramos por litro. Se reunieron 15 muestras de la estacion 1 y 12 muestras de la 
estacion 2. Las 15 muestras de la estacion 1 tuvieron un contenido promedio de or- 
tofosforo de 3.84 miligramos por litro y una desviacion estandar de 3.07 miligramos 
por litro; en tanto que las 12 muestras de la estacion 2 tuvieron un contenido pro- 
medio de 1.49 miligramos por litro y una desviacion estandar de 0.80 miligramos por 
litro. Encuentre un intervalo de confianza de 95% para la diferencia en el contenido 
promedio real de ortofosforo en estas dos estaciones. Suponga que las observaciones 
provienen de poblaciones normales con varianzas diferentes. 

Para la estacion 1 tenemos x\ = 3.84, si = 3.07 y ni = 15. Para la estacion 2, x 2 = 1.49, 
s 2 = 0.80 y n 2 = 12. Deseamos encontrar un intervalo de confianza de 95% para 
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pi — i-i 2 - Como las varianzas poblacionales se suponen diferentes, solo podemos 
encontrar un intervalo de confianza de 95% aproximado basado en la distribution t 
con v grados de libertad, donde 


(3.07 2 /15 + 0.80 2 /12) 2 
[(3.07 2 / 15) 2 /14] + [(0.80 2 / 12) 2 / 11] 


16.3 « 16. 


Nuestra estimation puntual de pi — p 2 es 


xi ~ x 2 = 3.84 — 1.49 = 2.35. 


A1 usar a = 0.05, en la tabla A. 4 encontramos que to . 025 = 2.120 para v = 16 grados 
de libertad. Por lo tanto, el intervalo de confianza de 95% para p\ — p 2 es 


2.35 - 2.120 



+ 


0.80 2 

12 


<C Pi — P 2 2.35 + 2.120 



+ 


0.80 2 

12 


que se simplifica a 0.60 < p\ — p 2 < 4.10. Por ello, tenemos una confianza de 95% 
de que el intervalo de 0.60 a 4.10 miligramos por litro contiene la diferencia de los 
contenidos promedio reales de ortofosforo para estos dos lugares. 


9.9 Observaciones pareadas 

En esta section consideraremos los procedimientos de estimacion para la diferencia 
de dos medias cuando las muestras no son independientes y las varianzas de las dos 
poblaciones no son necesariamente iguales. La situation que se considera aquf tiene 
que ver con una situacion experimental muy especial; a saber, las observaciones 
pareadas. A diferencia de la situacion que se describio antes, las condiciones de las 
dos poblaciones no se asignan de forma aleatoria a las unidades experiment ales. Mas 
bien, cada unidad experimental homogenea recibe ambas condiciones poblacionales; 
como resultado, cada unidad experimental tiene un par de observaciones, una para 
cada poblacion. Por ejemplo, si realizamos una prueba de una nueva dieta con 15 
individuos, los pesos antes y despues de seguir la dieta forman la information de 
nuestras dos muestras. Estas dos poblaciones son “antes” y “despues”, y la unidad 
experimental es el individuo. Evidentemente las observaciones en un par tienen algo 
en comun. Para determinar si la dieta es efectiva, consideramos las diferencias d±, 
d 2 , . . . , d n en las observaciones pareadas. Estas diferencias son los valores de una 
muestra aleatoria D i, D 2 ,..., D n de una poblacion de diferencias, que supondre- 
mos distribuidas normalmente, con media p D = pi — P 2 y varianza <x 2 . Estimamos 
a 2 , mediante s^, la varianza de las diferencias que constituyen nuestra muestra. El 
estimador puntual de p D esta dado por D. 

^Cuando deberfa hacerse el pareo? 

Parear observaciones en un experimento es una estrategia que se puede emplear en 
muchos campos de aplicacion. Se expondra al lector a tal concepto en el material 
relativo a la prueba de hipotesis en el capitulo 10 y en los temas de diseno experi- 
mental en los capftulos 13 y 15. Al seleccionar unidades experimentales relativamen- 
te homogeneas (dentro de las unidades) y permitir que cada unidad experimente 



9.9 Observaciones pareadas 


295 


ambas condiciones poblacionales, se reduce la “varianza del error experimental” 
efectiva (en este caso o 2 D ). El lector puede visualizar que el i-esimo par consiste en 
la medicion 


D, — Xu — Xu- 

Como las dos observaciones se toman de la unidad experimental de la muestra, no 
son independientes y, de hecho, 


Var(Di) = Var(X u - X 2i ) = erf + a 2 - 2 Cov(X u ,X 2i ). 

Entonces, de manera intuitiva, se espera que a 2 D deberia reducirse gracias a la simi- 
litud en la naturaleza de los “errores” de las dos observaciones dentro de una unidad 
experimental, y esto se logra a traves de la expresion anterior. En realidad se espera 
que si la unidad es homogenea, la covarianza sera positiva. Como resultado, la ga- 
nancia en calidad del intervalo de confianza sobre el no pareado sera mayor cuando 
haya homogeneidad dentro de las unidades, y diferencias grandes conforme se vaya 
de una unidad a otra. Se deberia tener en cuenta que el desempeno del intervalo de 
confianza dependera del error estandar de D que es, por supuesto, a D /^/n, donde n 
es el numero de pares. Como indicamos antes, la intention de parear es reducir ao- 


Evaluacion entre reducir la varianza y perder grados de libertad 

A1 comparar la situation del intervalo de confianza pareado contra la del sin parear, 
se vuelve evidente que hay un “intercambio” implicado. Aunque en realidad el he- 
cho de parear deberia reducir la varianza y, por ello, reducir el error estandar de la 
estimation puntual, los grados de libertad se reducen al reducir el problema a uno 
de una sola muestra. Como resultado, el punto t a / 2 unido al error estandar se ajusta en 
consecuencia. Por lo tanto, el pareamiento podria resultar contraproducente. Este 
en realidad seria el caso si se experimenta solo una reduction modesta en la varianza 
(a traves de cr 2 D ) mediante el pareamiento. 

Otra ilustracion del pareamiento implicaria la election de n pares de sujetos, 
donde cada par tiene una caracteristica similar, como ci, edad, raza, etcetera; 
entonces, para cada par se selecciona un miembro al azar para obtener un valor 
de Ai, mientras que el otro miembro da el valor de A 2 . En este caso, Ai y A 2 pueden 
representar las calificaciones que obtienen dos individuos de Ci igual, cuando uno 
de los individuos se asigna al azar a un grupo que usa el sistema de clases conven- 
cional, mientras que el otro individuo se asigna a un grupo que utiliza materiales 
programados. 

Se puede establecer un intervalo de confianza de (1 — a) 100% para /io al escribir 


P(~ta / 2 <T < t a / 2 ) — 1 — 0 , 


donde T = y t a / 2 , como antes, es un valor de la distribution t con n — 1 

grados de libertad. 

Es ahora un procedimiento de rutina reemplazar T por su definicion, en la desi- 
gualdad anterior y desarrollar los pasos matematicos que conduzcan al siguiente 
intervalo de confianza de (1 — a) 100% para /ij — p 2 = Pd- 
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Tabla 9.1: Datos para el ejemplo 9.12 


Niveles 
de TCDD 

en 

Veterano plasma 

Niveles 
de TCDD 
en tejido 
adiposo di 

Niveles 
de TCDD 

en 

Veterano plasma 

Niveles 
de TCDD 
en tejido 
adiposo 

di 

1 

2.5 

4.9 

-2.4 

11 

6.9 

7.0 

- 0.1 

2 

3.1 

5.9 

-2.8 

12 

3.3 

2.9 

0.4 

3 

2.1 

4.4 

-2.3 

13 

4.6 

4.6 

0.0 

4 

3.5 

6.9 

-3.4 

14 

1.6 

1.4 

0.2 

5 

3.1 

7.0 

-3.9 

15 

7.2 

7.7 

- 0.5 

6 

1.8 

4.2 

-2.4 

16 

1.8 

1.1 

0.7 

7 

6.0 

10.0 

-4.0 

17 

20.0 

11.0 

9.0 

8 

3.0 

5.5 

-2.5 

18 

2.0 

2.5 

- 0.5 

9 

36.0 

41.0 

-5.0 

19 

2.5 

2.3 

0.2 

10 

4.7 

4.4 

0.3 

20 

4.1 

2.5 

1.6 


Fuente: Schecter, A. et al., “Partitioning of 2, 3, 7, 8-chlorinated dibenzo-p-dioxins and dibenzofurans between adipose 
tissue and plasma lipid of 20 Massachusetts Vietnam veterans”, Chemosphere, vol. 20, nums. 7-9, 1990, pp. 954-955 
(tablas I y II). 


Intervalo de 
confianza para 

Pd = Pi - P2', 
para observaciones 
pareadas 


Si d y Sd son la media y la desviacion estandar, respectivamente, de las diferencias 
distribuidas normalmente de n pares aleatorios de mediciones, un intervalo de 
confianza de (1 — a) 100% para po = pi — P '2 es 


Sd T Sd 

12—/= < Pd < d + t a / 2~/= 
\Jn sjn 


donde t a / 2 es el valor t, con v = n — 1 grados de libertad que deja un area de a/2 
a la derecha. 


Ejemplo 9.12:1 Un estudio publicado en Chemosphere reporta los niveles de la dioxina tcdd de 20 
veteranos de Vietnam residentes en Massachusetts, quienes posiblemente se expu- 
sieron al agente naranja. La cantidad en los niveles de tcdd en plasma y en tejido 
adiposo se presentan en la tabla 9.1. 

Encuentre un intervalo de confianza de 95% para p\ — P 2 , donde pi y p -2 repre- 
senten las medias reales de tcdd en plasma y en tejido adiposo, respectivamente. 
Suponga que la distribution de las diferencias es aproximadamente normal. 

Solucion: Deseamos encontrar un intervalo de confianza de 95% para pi — p 2 - Como las obser- 
vaciones estan pareadas, pi — p -2 = pd • La estimation puntual de po es d = —0.87. 
La desviacion estandar Sd de las diferencias muestrales es 


Sd 


\ 


'£(d,-sr 


i= 1 


168.4220 


19 


2.9773. 


Usando a = 0.05, en la tabla A. 4 encontramos que to . 025 = 2.093 para v = n — 1 = 
19 grados de libertad. Por lo tanto, el intervalo de confianza de 95% es 


/ 2.9773\ 

ITirJ 


< p D < -0.8700+ (2.093) 


/ 2.9773\ 

ITiri’ 


0.8700 - (2.093) 
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o simplemente —2.2634 < /ip < 0.5234, del cual concluimos que no hay diferencia 
significativa entre el nivel medio de tcdd en plasma y el nivel medio de tcdd en 
tejido adiposo. 


Ej ercicios 

9.35 Una muestra aleatoria de tamano n\ = 25 que 
se toma de una poblacion normal con una desviacion 
estandar a i = 5 tiene una media x\ = 80. Una segunda 
muestra aleatoria de tamano ri 2 = 36, que se toma de 
una poblacion normal diferente con una desviacion es- 
tandar (72 = 3, tiene una media X 2 = 75. Encuentre un 
intervalo de confianza de 94% para fii - [ 12 - 

9.36 Se comparan las resistencias de dos clases de 
hilo. Cincuenta piezas de cada clase de hilo se prueban 
bajo condiciones similares. La marca A tiene una re- 
sistencia a la tension promedio de 78.3 kilogramos con 
una desviacion estandar de 5.6 kilogramos; en tanto que 
la marca B tiene una resistencia a la tension prome- 
dio de 87.2 kilogramos con una desviacion estandar de 
6.3 kilogramos. Construya un intervalo de confianza 
de 95% para la diferencia de las medias poblacionales. 

9.37 Se realiza un estudio para determinar si cierto 
tratamiento metalico tiene algun efecto sobre la canti- 
dad de metal que se elimina en una operation de deca- 
pado. Una muestra aleatoria de 100 piezas se sumerge 
en un bano por 24 lioras sin el tratamiento, lo que da 
un promedio de 12.2 mili'metros de metal elirninados 
y una desviacion estandar muestral de 1.1 mili'metros. 
Una segunda muestra de 200 piezas se somete al tra- 
tamiento, seguida de 24 horas de inmersion en el bano, 
lo que da como resultado una elimination promedio de 
9.1 mili'metros de metal, con una desviacion estandar 
muestral de 0.9 mili'metros. Calcule una estimation del 
intervalo de confianza de 98% para la diferencia entre 
las medias de las poblaciones. ^E1 tratamiento parece 
reducir la cantidad media del metal eliminado? 

9.38 En un proceso qufmico por lotes, se comparan 
los efectos de dos catalizadores sobre la potencia de la 
reaction del proceso. Se preparo una muestra de 12 
lotes con el uso del catalizador 1 y se obtuvo una mues- 
tra de 10 lotes con el catalizador 2. Los 12 lotes para 
los que se utilizo el catalizador 1 dieron un rendimiento 
promedio de 85 con una desviacion estandar muestral 
de 4; en tanto que para la segunda muestra el promedio 
fue de 81 con una desviacion estandar muestral de 5. 
Encuentre un intervalo de confianza de 90% para la 
diferencia entre las medias poblacionales, suponiendo 
que las poblaciones se distribuyen de forma aproxima- 
damente normal con varianzas iguales. 

9.39 Los estudiantes pueden elegir entre un curso de 
fi'sica de tres semestres-hora sin laboratorio y un curso 
de cuatro semestres-hora con laboratorio. El examen 
final escrito es el mismo para cada section. Si 12 es- 


tudiantes de la section con laboratorio tiene una ca- 
lificacion promedio en el examen de 84 con una desvia- 
cion estandar de 4, y 18 estudiantes de la section sin 
laboratorio tienen una calificacion promedio de 77 con 
una desviacion estandar de 6, encuentre un intervalo 
de confianza de 99% para la diferencia entre las califi- 
caciones promedio para ambos cursos. Suponga que las 
poblaciones se distribuyen de forma aproximadamente 
normal con varianzas iguales. 

9.40 En un estudio que se lleva a cabo en el Instituto 
Politecnico y Universidad Estatal de Virginia sobre el 
desarrollo de ectomycorrhizal, una relation simbiotica 
entre las rafces de los arboles y un hongo, en la cual se 
transfieren minerales del hongo a los arboles y azucares 
de los arboles a los hongos, se plantan en un inverna- 
dero 20 robles rojos con el hongo Pisolithus tinctorus. 
Todos los arboles se plantan en el mismo tipo de suelo 
y reciben la misma cantidad de luz solar y agua. La 
mitad no recibe nitrogeno en el momento de plantarlos 
para servir como control y la otra mitad recibe 368 
ppm de nitrogeno en forma de NaN 03 . Los pesos de los 
tallos, que se registran en gramos, al final de 140 dfas 
se registran como sigue: 


Sin nitrogeno 

Con nitrogeno 

0.32 

0.26 

0.53 

0.43 

0.28 

0.47 

0.37 

0.49 

0.47 

0.52 

0.43 

0.75 

0.36 

0.79 

0.42 

0.86 

0.38 

0.62 

0.43 

0.46 


Construya un intervalo de confianza de 95% para la 
diferencia en los pesos medios de los tallos entre los que 
no recibieron nitrogeno y los que recibieron 368 ppm de 
nitrogeno. Suponga que las poblaciones estan distribui- 
das normalmente con varianzas iguales. 

9.41 Los siguientes datos, registrados en di'as, repre- 
sentan el tiempo de recuperation para pacientes que se 
tratan al azar con uno de dos medicamentos para curar 
infecciones graves de la vejiga: 

Medicamento 1 Medicamento 2 

ni = 14 ri2 = 16 

x\ = 17 X 2 — 19 

sj = 1.5 si = 1.8 
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Encuentre un intervalo de confianza de 99% para la 
diferencia p 2 — Pi en el tiempo medio de recuperation 
para los dos medicamentos. Suponga poblaciones nor- 
males con varianzas iguales. 

9.42 Un experimento publicado en Popular Science 
compara las economfas en combustible para dos tipos 
de camiones compactos a diesel equipados de forma si- 
milar. Supongamos que se utilizaron 12 camiones Volks- 
wagen y 10 Toyota en pruebas de velocidad constante 
de 90 kilometros por hora. Si los 12 camiones Volkswa- 
gen promedian 16 kilometros por litro con una desvia- 
cion estandar de 1.0 kilometro por litro y los 10 Toyota 
promedian 11 kilometros por litro con una desviacion 
estandar de 0.8 kilometros por litro, construya un in- 
tervalo de confianza de 90% para la diferencia entre los 
kilometros promedio por litro de estos dos camiones 
compactos. Suponga que las distancias por litro para 
cada modelo de camion estan distribuidas de forma 
aproximadamente normal con varianzas iguales. 

9.43 Una compama de taxis trata de decidir si com- 
prar neumaticos de la marca A o de la B para su flotilla 
de taxis. Para estimar la diferencia de las dos marcas, 
se lleva a cabo un experimento utilizando 12 neuma- 
ticos de cada marca. Los neumaticos se utilizan hasta 
que se desgastan. Los resultados son 

Marca A: xi = 36,300 kilometros, 

51 = 5,000 kilometros. 

Marca B: X 2 = 38,100 kilometros, 

5 2 = 6,100 kilometros. 

Calcule un intervalo de confianza de 95% para pa — Pb, 
suponiendo que las poblaciones se distribuyen de forma 
aproximadamente normal. Puede no suponer que las 
varianzas son iguales. 

9.44 Con referenda al ejercicio 9.43, encuentre un in- 
tervalo de confianza de 99% para /ii — p 2 , si se asigna 
al azar un neumatico de cada compama a las ruedas 
traseras de 8 taxis y se registran las siguientes distan- 
cias, en kilometros: 


Taxi 

Marca A 

Marca B 

1 

34,400 

36,700 

2 

45,500 

46,800 

3 

36,700 

37,700 

4 

32,000 

31,100 

5 

48,400 

47,800 

6 

32,800 

36,400 

7 

38,100 

38,900 

8 

30,100 

31,500 


Suponga que las diferencias de las distancias se distri- 
buyen de forma aproximadamente normal. 

9.45 El gobierno otorga fondos para los departamen- 
tos de agricultura de 9 universidades para probar las 
capacidades de rendimiento de dos nuevas variedades 
de trigo. Cada variedad se siembra en parcelas de area 
igual en cada universidad y el rendimiento, en kilogra- 
mos por parcela, se registra como sigue: 


Universidad 

Variedad 123456789 

1 38 23 35 41 44 29 37 31 38 

2 45 25 31 38 50 33 36 40 43 

Encuentre un intervalo de confianza de 95% para la 
diferencia media entre los rendimientos de las dos varie- 
dades, suponiendo que las diferencias de rendimiento 
se distribuyen de forma aproximadamente normal. Ex- 
plique por que en este problema se necesita el parea- 
miento. 

9.46 Los siguientes datos representan los tiempos de 
duracion de las pelfculas que producen dos compaiifas 
cinematograficas. 

Compama Tiempo (minutos) 

~ 103 94 110 87 98 

II 97 82 123 92 175 88 118 

Calcule un intervalo de confianza de 90% para la dife- 
rencia entre los tiempos de duracion promedio de las 
pelfculas que producen las dos companfas. Suponga que 
las diferencias del tiempo de duracion se distribuyen 
de forma aproximadamente normal con varianzas dis- 
tintas. 

9.47 A continuation se listan 10 de las 431 companfas 
estudiadas en la revista Fortune (marzo de 1997). Se 
listan las utilidades totales para los 10 anos anteriores 
a 1996 y tambien para 1996. Encuentre un intervalo 
de confianza de 95% para el cambio promedio en el 
porcentaje de utilidad de los inversionistas. 


Utilidad total para 
los inversionistas 


Compama 

1986-1996 

1996 

Coca-Cola 

29.8% 

43.3% 

Mirage Resorts 

27.9% 

25.4% 

Merck 

22.1% 

24.0% 

Microsoft 

44.5% 

88.3% 

Johnson & Johnson 

22.2% 

18.1% 

Intel 

43.8% 

131.2% 

Pfizer 

21.7% 

34.0% 

Procter & Gamble 

21.9% 

32.1% 

Berkshire Hathaway 

28.3% 

6.2% 

S&P 500 

11.8% 

20.3% 


9.48 Una compama automotriz considera dos tipos 
de baterfas para sus vehfculos. Se emplea la informa- 
cion muestral de la vida de las baterfas. Se utilizan 20 
baterfas del tipo A y 20 baterfas del tipo B. El extracto 
de los estadfsticos es xa = 32.91, xb = 30.47, = 1.57 

y sb = 1.74. Suponga que los datos de cada baterfa se 
distribuyen normalmente y que cr a = &b- 

a) Encuentre un intervalo de confianza de 95% para 
PA — Pb- 

b) A partir del inciso a) obtenga algunas conclusiones 
que ayuden a decidir si se deberfa adoptar A o B. 
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9.49 Se considera usar dos marcas diferentes de pin- 
tura latex. El tiempo de secado en horas se mide en 
especlmenes de muestras del uso de las dos pinturas. Se 
seleccionan 15 especlmenes de cada una y los tiempos 
de secado son los siguientes: 

Pintura A Pintura B 

3.5 2.7 3.9 4.2 3.6 4.7 3.9 4.5 5.5 4.0 

2.7 3.3 5.2 4.2 2.9 5.3 4.3 6.0 5.2 3.7 

4.4 5.2 4.0 4.1 3.4 5.5 6.2 5.1 5.4 4.8 

Suponga que el tiempo de secado se distribuye normal- 

mente con a a = <?b- Encuentre un intervalo de confian- 
za en ps — Pa, donde pa y Pb sean los tiempos medios 
de secado. 


9.50 Dos niveles (alto y bajo) de dosis de insulina 
se suministran a dos grupos de ratas diabeticas para 
verilicar la capacidad de fijacion de la insulina. Se ob- 
tuvieron los siguientes datos. 

Dosis baja: m = 8 xi = 1.98 si = .51 

Dosis alta: ri 2 = 13 *2 = 1-30 S 2 = 0.35 

Suponga que ambas varianzas son iguales. Determine 
un intervalo de confianza de 95% para la diferencia de 
la capacidad promedio real para fijar la insulina entre 
las dos muestras. 


9.10 Una sola muestra: Estimacion de una proporcion 

Un estimador puntual de la proporcion p en un experimento binomial esta dado por 
el estadlstico P = X/n, donde X representa el numero de exitos en n pruebas. Por 
lo tanto, la proporcion de la muestra p = x/n se utilizara como el estimador puntual 
del parametro p. 

Si no se espera que la proporcion p desconocida este demasiado cerca de cero o de 1, 
podemos establecer un intervalo de confianza para p al considerar la distribucion 
muestral de P. Al designar un fracaso en cada prueba binomial con el valor 0 y un 
exito con el valor 1, el numero de exitos, x, se puede interpretar como la suma de 
n valores que consisten solo de ceros y unos, y p es solo la media muestral de estos n 
valores. De aqul, por el teorema del lfmite central, para n suficientemente grande, P 
esta distribuida de forma aproximadamente normal con media 

»t. = E(P) = E (*) = ^ = P 
\n J n 

y varianza 

2 _ 2 _ a x _ n P9 _ PQ 

® p ® X/n 9 9 

t' / n z n z n 

Por lo tanto, podemos asegurar que 

P{-Z a / 2 < Z < Z a/2 ) = 1-Q!, 


donde 


z = P ~P 

\Jpq/n 

y z a /2 es el valor de la curva normal estandar sobre la cual encontramos un area de 
a/2. Al sustituir para Z , escribimos 


P — p 
VmJn 


< z a /2 


P -Z a /2 < 


= 1 — 0 . 
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Intervalo de 
confianza de p 
de una muestra 
grande 


Ejemplo 9.13: 


Solucion: 


A1 multiplicar cada termino de la desigualdad por \fpqjn , y despues restar P y 
multiplicar por —1, obtenemos 


P 



< p < P + Z a /-2 



= 1 — a. 


Es difi'cil manipular las desigualdades de manera que se obtenga un intervalo alea- 
torio cuyos puntos extremos sean independientes de p, el parametro desconocido. 
Cuando n es grande, se introducen errores muy pequenos al sustituir la estimacion 
puntual p = x/n por p bajo el signo del radical. Entonces podemos escribir 


P 




< p < P + Z a /2 



1 — a. 


Para nuestra muestra aleatoria particular de tamano n, se calcula la proportion 
muestral p = x/n y se obtiene el siguiente intervalo de confianza de(l — a)100% 
aproximado para p. 


Si p es la proportion de exitos en una muestra aleatoria de tamano n, y q = 1 
— p, un intervalo de confianza aproximado de (1 — a) 100% para el parametro 
binomial p este dado por 


lM * rM 

P ~ z a/2\ — <P<P+ Z a/2 \ — , 

' V n V n 

donde z a / 2 es el valor z que deja un area de a/2 a la derecha. 

Cuando n es pequena y la proportion desconocida p se considera cercana a 0 o a 
1, el procedimiento del intervalo de confianza que se establece aquf no es confiable 
y, por lo tanto, no se deberfa emplear. Para estar seguro, se requiere que tanto rip 
como nq sean mayores que o iguales a 5. El metodo para encontrar un intervalo de 
confianza para el parametro binomial p tambien se aplica cuando la distribution 
binomial se utiliza para aproximar la distribution hipergeometrica; es decir, cuando 
n es pequena en relation con N, como se ilustra en el ejemplo 9.13. 


En una muestra aleatoria de n = 500 familias que tienen televisores en la ciudad de 
Hamilton, Canada, se encuentra que x = 340 estan suscritas a hbo. Encuentre un 
intervalo de confianza de 95% para la proportion real de familias en esta ciudad que 
estan suscritas a hbo. 

La estimacion puntual de p es p = 340/500 = 0.68. Con la tabla A. 3, encontramos 
que 3o.025 = 1.96. Por lo tanto, el intervalo de confianza de 95 % para p es 


0.68 - 1.96 


(0.68)(0.32) 

500 


< p < 0.68 + 1.96 


(0.68)(0.32) 
500 ’ 


que se simplifica a 0.64 < p < 0.72. 

Si p es el valor central de un intervalo de confianza de (1 — a) 100%, entonces p 
estima p sin error. La mayorfa de las veces, sin embargo, p no sera exactamente igual 
a p y la estimacion puntual sera erronea. El tamano de este error sera la diferencia 
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positiva que separa a p y p, y p odemo s tener una confianza de (1 — a)100% de que 
tal diferencia no excedera z a / 2 \Zpq/n. Podemos ver esto facilmente si dibujamos un 
diagrama de un intervalo de confianza ti'pico como en la figura 9.6. 




A /A A, 

P -z a /2 VP qln 



H 


A 


P 



Figura 9.6: Error en la estimacion de p por p. 


Teorema 9.3: 


Si p se utiliza como una estimacion de p, podemos tener una confianza de (1 — a) 
100% de que el error no excedera z a / 2 \Jpq/n. 


En el ejemplo 9.10 tenemos una confianza de 95% de que la proporcion de la 
muestra p = 0.68 difiere de la proporcion real p en una cantidad que no excede 
0.04. 

Seleccion del tamano de la muestra 

Determinemos ahora que tan grande se requiere que sea una muestra, para asegurar 
que el error al estimar p sea menor que una cantidad especffica e. Por el teorema 7.3, 
esto significa que debemos elegir n de manera que z a / 2 \/pq/n = e. 


Teorema 9.4: 


Si p se utiliza como estimacion de p, podemos tener una confianza de (1 — a) 100% 
de que el error sera menor que una cantidad especffica e cuando el tamano de la 
muestra sea aproximadamente 


n = 



El teorema 9.4 es algo enganoso, pues debemos utilizar p para determinar el 
tamano n de la muestra; pero p se calcula a partir de la muestra. Si se puede hacer 
una estimacion cruda de p sin tomar una muestra, podrfamos usar este valor para 
determinar n. A falta de tal estimacion, podrfamos tomar una muestra preliminar de 
tamano n > 30 para proporcionar una estimacion de p. Despues, usando el teorema 
9.4 podrfamos determinar de forma aproximada cuantas observaciones se necesitan 
para brindar el grado de precision que se desea. Observe que los valores fraccionarios 
de n se redondean (hacia arriba) al siguiente mimero entero. 


Ejemplo 91:4 ^Que tan grande se requiere que sea una muestra en el ejemplo 9.13 si queremos 
tener 95% de confianza de que nuestra estimacion de p este dentro de 0.02? 
Solucion: Tratemos a las 500 familias como una muestra preliminar que proporciona una esti- 
macion p = 0.68. Entonces, por el teorema 9.4, 


(1.96) 2 (0.68)(0.32) 

(0.02) 2 


2089.8 « 2090. 
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Por lo tanto, si basamos nuestra estimation de p sobre una muestra aleatoria de 
tamano 2090, podemos tener una confianza de 95% de que nuestra proporcion mues- 
tral no diferira de la proporcion real en mas de 0.02. 

De cuando en cuando sera poco practico obtener una estimacion de p que se 
utilice para determinar el tamano muestral para un grado espetifico de confianza. Si 
esto sucede, se establece un lfmite superior para n al notar que pq = p( 1 — p) que 
debe ser a lo mas igual a 1/4, ya que p debe estar entre 0 y 1. Este hecho se verifica 
al completar cuadrados. Por lo tanto, 

P( 1 ~P) = ~(P 2 ~ P) = \ ~ (P 2 ~ P + \) = \ ~ (p ~ \ 

que siempre es menor que 1/4 excepto cuando p = 1/2 y entonces pq = 1/4. Enton- 
ces, si sustituimos p = 1/2 en la formula para n del teorema 9.4, cuando, de hecho, 
p realmente clifiere de 1/2, entonces n se hara mas grande de lo necesario para el 
grado de confianza espetifico y, como resultado, se incrementara nuestro grado de 
confianza. 



Teorema 9.5: 


Si p se utiliza como estimacion de p , podemos tener una confianza de al menos 
(1 — a) 100% de que el error no excedera una cantidad especffica e cuando el ta- 
maho de la muestra sea 


n = 



Ejemplo 9.15:1 ^Que tan grande se requiere que sea la muestra en el ejemplo 9.13, si queremos te- 
ner una confianza de al menos 95% de que nuestra estimacion de p este dentro de 
0 . 02 ? 

Solucion: A diferencia del ejemplo 9.14, supondremos ahora que no se tomo una muestra pre- 
liminar para tener una estimacion de p. En consecuencia, podemos tener al menos 
una confianza de 95% de que nuestra proporcion de la muestra no diferira de la 
proporcion real en mas de 0.02, si elegimos una muestra de tamano 


(1.96) 2 

(4)(0.02) 2 


= 2401. 


Al comparar los resultados de los ejemplos 9.14 y 9.15, la information con respecto 
a p, proporcionada por una muestra preliminar o quizas a partir de la experiencia 
pasada, nos permite elegir una muestra mas pequeha, a la vez que mantenemos 
nuestro grado de precision requerido. 


9.11 Dos muestras: Estimacion de la diferencia 
entre dos proporciones 

Considere el problema donde deseamos estimar la diferencia entre dos parame- 
tros binomiales p i y p 2 ■ Por ejemplo, podrfamos hacer que pi sea la proporcion de 
fumadores con cancer pulmonar y p 2 la proporcion de no fumadores con cancer pul- 
monar. Nuestro problema, entonces, consiste en estimar la diferencia entre estas dos 
proporciones. Primero, seleccionamos muestras aleatorias independientes de tamahos ?ri 
y n 2 a partir de las dos poblaciones binomiales con medias nipi y ri 2 P 2 y varianzas 
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nipiqi y ri2P2<l2i respectivamente, despues determinamos los numeros x\ y X2 de per- 
sonas con cancer pulmonar en cada muestra, y formamos las proporciones p = xi/n y 
p = X2 /n. Un estimador puntual de la diferencia entre las dos proporciones, pi — P2 
esta dado por el estadistico P i — P2. Por lo tanto, la diferencia de las proporciones 
muestrales, pi — p 2, se utilizara como la estimation puntual de pi — p2- 

Se puede establecer un intervalo de confianza para pi — P2 al considerar la dis- 
tribution muestral de P\ — P2. De la section 9.10 sabemos que P 1 y P 2 estan distri- 
buidos cada uno de forma aproximadamente normal, con medias p\ y P2, y varianzas 
piqi/ni y P292/1J2, respectivamente. Al elegir muestras independientes de las dos 
poblaciones, las variables P 1 y P 2 seran independientes y, por ello, por la propiedad 
reproductiva de la distribution normal que se establecio en el teorema 7 . 11 , conclui- 
mos que P 1 — P 2 esta distribuida de forma aproximadamente normal con media 

Pp 1 — p 2 = Pi ~ P2 


y varianza 


a 


2 

P1-P2 


Piqi P2g2 
n 1 n 2 


Por lo tanto, podemos asegurar que 


P(~z a /2 < Z < z a/2 ) = l-a, 


donde 


z = (A - h) - (pi - P2) 

yj Piqi/ni +p 2 q 2 /n 2 ’ 

z a /2 es un valor de la curva normal estandar sobre la cual encontramos un area de 
a/ 2 . Al sustituir para Z, escribimos 


P 


(A - A) - {pi -P2) 

\Jp\q\jnx +p 2 q2/ri2 


< Z a !2 


= 1 — a. 


Despues de realizar las manipulaciones matematicas usuales, reemplazamos p\, 
P21 qi y 92 bajo el signo del radical por sus estimaciones Pi = x\/ni, p 2 = ^2/^2, 
qi = 1 — p\ y <72 = 1 — p 2, dado que n\p\, niqi, n 2 p2 y n 2 q2 son todas mayores 
que o iguales a 5 , y se obtiene el siguiente intervalo de confianza de (1 — a) 100 % 
aproximado para p\ — p2- 


Intervalo de 
confianza 
de pi — P2 de una 
muestra grande 


Si pi y P2 son las proporciones de exitos en muestras aleatorias de tamano n± 
y n 2, respectivamente, q 1 = 1 — p 1, y q 2 = 1 — p 2 , un intervalo de confianza 
aproximado de (1 — a) 100 % para la diferencia de dos parametros binomiales 
Pi — P21 esta dado por 


{pi -P2)- z a /2 


pm , V 292 ^ 

1 < P1-P2 


n 1 


n 2 


< ( Pi-P2) + z a/2 


Piqi P 2 q 2 


n 1 


n 2 


donde z a / 2 es el valor z que deja un area de a /2 a la clerecha. 
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Ejemplo 9.16:1 Se considera cierto cambio en un proceso de fabrication de partes componentes. Se 
toman muestras del procedimiento actual y del nuevo, para determinar si el nuevo 
tiene como resultado una mejorfa. Si se encuentra que 75 de 1500 artfculos del pro- 
cedimiento actual son defectuosos y 80 de 2000 artfculos del procedimiento nuevo 
tambien lo son, encuentre un intervalo de confianza de 90% para la diferencia real 
en la fraction de defectuosos entre el proceso actual y el nuevo. 

Solucion: Sean pi y p 2 las proporciones reales de defectuosos para los procedimientos actual y 
nuevo, respectivamente. De aquf, p i = 75/1500 = 0.05 y p 2 = 80/2000 = 0.04, y la 
estimation puntual de p\ — p 2 es 

Pi-p 2 = 0.05 - 0.04 = 0.01. 

Con la tabla A. 3, encontramos zo .05 = 1.645. Por lo tanto, al sustituir en esta 
formula 


1.645 


(0.05)(0.95) (0.04)(0.96) 


1500 


2000 


0.0117, 


obtenemos el intervalo de confianza de 90% que se simplifica —0.0017 < pi — p 2 < 
0.0217. Como el intervalo contiene el valor 0, no hay razon para creer que el nuevo 
procedimiento resulto en una disminucion significativa en la proportion de artfculos 
defectuosos, comparado con el metodo actual. 

Hasta aquf, todos los intervalos de confianza presentados son de la forma 

estimation puntual ± K e.e. (estimation puntual), 

donde K es una constante (ya sea t o el punto porcentual normal). Este es el caso 
cuando el parametro es una media, diferencia entre medias, proporcion o diferencia 
entre proporciones, clebido a la simetrfa de las distribuciones tyZ. Sin embargo, ello 
no se extiende a las varianzas ni a las razones de varianzas que se examinaran en 
las secciones 9.12 y 9.13. 


Ej ercicios 

9.51 a) Se selecciona una muestra aleatoria de 200 
votantes y se encuentra que 114 apoyan un juicio 
de anexion. Encuentre el intervalo de confianza de 
96% para la fraction de la poblacion votante que 
favorece el juicio. 

b) i,Que podemos asegurar con 96% de confianza acer- 
ca de la posible magnitud de nuestro error, si esti- 
mamos que la fraction de votantes que favorecen el 
juicio de anexion es 0.57? 

9.52 Un fabricante de reproductores de discos com- 
pactos utiliza un conjunto de pruebas amplias para 
evaluar la funcion electrica de su producto. Todos los 
reproductores de discos compactos deben pasar todas 
las pruebas antes de venderse. Una muestra aleato- 
ria de 500 reproductores tiene como resultado 15 que 


fallan en una o mas de las pruebas. Encuentre un in- 
tervalo de confianza de 90% para la proporcion de los 
reproductores de discos compactos de la poblacion que 
pasan todas las pruebas. 

9.53 En una muestra aleatoria de 1000 viviendas en 
cierta ciudad, se encuentra que 228 se calientan con 
petroleo. Encuentre el intervalo de confianza de 99% 
para la proporcion de viviendas en esta ciudad que se 
calientan con petroleo. 

9.54 Calcule un intervalo de confianza de 98% para 
la proporcion de artfculos defectuosos en un proceso 
cuando se encuentra que una muestra de tamaiio 100 
da como resultado 8 defectuosos. 
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9.55 Se considera un nuevo sistema de lanzamiento 
de cohetes para el despliegue de cohetes pequenos de 
corto alcance. El sistema existente tiene p = 0.8 como 
la probabilidad de lanzamiento exitoso. Se realiza una 
muestra de 40 lanzamientos experimentales con el nue- 
vo sistema y 34 resultan exitosos. 

a) Construya un intervalo de confianza de 95% para p. 

b) ^Concluirfa que es mejor el nuevo sistema? 

9.56 Un genetista se interesa en la proporcion de 
hombres africanos que tienen cierto trastorno sanguf- 
neo menor. En una muestra aleatoria de 100 hombres 
africanos, se encuentra que 24 lo padecen. 

a) Calcule un intervalo de confianza de 99% para la 
proporcion de hombres africanos que tienen este 
trastorno sangm'neo. 

b) ^Que se puede asegurar con 99% de confianza acer- 
ca de la posible magnitud de nuestro error, si esti- 
mamos que la proporcion de hombres africanos con 
dicho trastorno sangumeo es 0.24? 

9.57 a) De acuerdo con un reporte del Roanoke Ti- 
mes & World-News, aproximadamente 2/3 de los 
1600 adultos encuestados via telefonica dijeron que 
piensan que el programa del trasbordador espacial 
es una buena inversion para el pafs. Encuentre un 
intervalo de confianza de 95% para la proporcion de 
adultos estadounidenses que piensan que el progra- 
ma del trasbordador espacial es una buena inversion 
para el pafs. 

b) ^Que podemos asegurar con una confianza de 95% 
acerca de la posible magnitud de nuestro error, si 
estimamos que la proporcion de adultos estadouni- 
denses que piensan que el programa del trasborda- 
dor espacial es una buena inversion de 2/3? 

9.58 En el artfculo del periodico al que se hace refe- 
renda en el ejercicio 9.57, 32% de los 1600 adultos en- 
cuestados dijeron que el programa espacial estadouni- 
dense deben'a enfatizar la exploration cientffica. i,Que 
tan grande se necesita que sea una muestra de adultos 
en la encuesta si se desea tener una confianza de 95% 
de que el porcentaje estimado este dentro de 2% del 
porcentaje real? 

9.59 /.Que tan grande se requiere que sea la muestra 
en el ejercicio 9.51 si deseamos tener una confianza de 
96% de que nuestra proporcion de la muestra estara 
dentro del 0.02 de la fraction real de la poblacion vo- 
tante? 

9.60 /.Que tan grande se requiere que sea la muestra 
en el ejercicio 9.53, si deseamos tener una confianza de 
99% de que nuestra proporcion de la muestra estara 
dentro del 0.05 de la proporcion real de casas en esta 
ciudad que se calientan con petroleo? 

9.61 /.Que tan grande se necesita la muestra en el 
ejercicio 9.54, si deseamos tener una confianza de 98% 
de que nuestra proporcion de la muestra este dentro del 
0.05 de la proporcion real de defectuosos? 


9.62 Se lleva a cabo un estudio para estimar el por- 
centaje de ciudadanos de una ciudad que estan a favor 
de tener su agua fluorada. /.Que tan grande se requiere 
que sea la muestra si se desea tener al menos una con- 
fianza de 95% de que nuestra estimation este dentro 
del 1% del porcentaje real? 

9.63 La conjetura de un miembro del profesorado del 
departamento de microbiologfa de la Escuela de Odon- 
tologfa de la Universidad de Washington, en St. Louis, 
afirma que un par de tasas diarias de te verde o negro 
proporcionan suhciente fluor para evitar caries en los 
dientes. i,Que tan grande se requiere que sea la mues- 
tra para estimar el porcentaje de habitantes de cierta 
ciudad que estan a favor de tener su agua fluorada, si 
se desea tener al menos el 99% de confianza de que la 
estimation esta dentro del 1% del porcentaje real? 

9.64 Se lleva a cabo un estudio para estimar la pro- 
porcion de residentes de cierta ciudad y sus suburbios 
que estan a favor de la construction de una planta de 
energfa nuclear. ^Que tan grande se requiere que sea la 
muestra, si se desea tener al menos 95% de confianza 
de que la estimation esta dentro del 0.04 de la propor- 
cion real de residentes de esta ciudad y sus suburbios, 
que estan a favor de la construction de la planta de 
energfa nuclear? 

9.65 Cierto genetista se interesa en la proporcion de 
hombres y mujeres en la poblacion que tienen cierto 
trastorno sangumeo menor. En una muestra aleato- 
ria de 1000 hombres se encuentra que 250 lo padecen; 
mientras que 275 de 1000 mujeres examinadas parecen 
tener el trastorno. Calcule un intervalo de confianza de 
95% para la diferencia entre la proporcion de hombres 
y mujeres que padecen el trastorno sangumeo. 

9.66 Se encuestan 10 escuelas de ingenierfa en Estados 
Unidos. La muestra contiene 250 ingenieros electricos, 
donde 80 son mujeres; y 175 ingenieros qufmicos, don- 
de 40 son mujeres. Calcule un intervalo de confianza de 
90% para la diferencia entre la proporcion de mujeres 
en estos dos campos de la ingenierfa. ^Hay una diferen- 
cia significativa entre las dos proporciones? 

9.67 Se lleva a cabo una prueba clfnica para determi- 
nar si cierto tipo de inoculation tiene un efecto sobre la 
incidencia de cierta enfermedad. Una muestra de 1000 
ratas se mantiene en un ambiente controlado durante 
un periodo de un ano y a 500 de estas se les inoculo. 
Del grupo al que no se le dio el farmaco, liubo 120 in- 
cidencias de la enfermedad; mientras que 98 del grupo 
inoculado la contrajeron. Si p\ es la probabilidad de 
incidencia de la enfermedad en las ratas no inoculadas 
y P 2 es la probabilidad de incidencia despues de recibir 
el farmaco, calcule un intervalo de confianza de 90% 
para p\ — P 2 - 

9.68 En un estudio, Germination and Emergence of 
Broccoli, que lleva a cabo el Departamento de Horti- 
cultura del Instituto Politecnico y Universidad Estatal 
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de Virginia, un investigador encuentra que a 5 °C, 10 
semillas de 20 germinaron; en tanto que a 15 °C, 
15 semillas de 20 lo hicieron. Calcule un intervalo de 
confianza de 95% para la diferencia entre la propor- 
tion de germination en las dos diferentes temperaturas, 
y decida si hay una diferencia significativa. 

9.69 Una encuesta a 1000 estudiantes concluye que 
274 eligen al equipo profesional de beisbol A como su 
equipo favorito. En 1991, se realizo la misma encuesta 
con 760 estudiantes. Concluyo que 240 de ellos tam- 
bien eligieron al equipo A como su favorito. Calcule un 
intervalo de confianza de 95% para la diferencia entre 
la proportion de estudiantes que favorecen al equipo 


A entre las dos encuestas. i,Hay una diferencia signi- 
ficativa? 

9.70 De acuerdo con USA Today (17 de marzo de 
1997), las mujeres constitm'an 33.7% del equipo de re- 
daction en las estaciones locales de television en 1990, 
y 36.2% en 1994. Suponga que se contrataron 20 nue- 
vos empleados para el equipo de redaction. 

a) Estime el numero que habrfan sido mujeres en cada 
ano, respectivamente. 

b) Calcule un intervalo de confianza de 95%, para sa- 
ber si hay evidencia de que la proportion de mujeres 
contratadas para el equipo de redaction en 1994 fue 
mayor que la proportion contratada en 1990. 


9.12 Una sola muestra: Estimacion de la varianza 

51 se extrae una muestra de tamano n de una poblacion normal con varianza a 2 y se 
calcula la varianza muestral s 2 , obtenemos un valor del estadfstico S 2 . Esta varianza 
muestral calculada se usara como estimacion puntual de er 2 . Por ello, el estadfstico 

5 2 se llama estimador de o 2 . 

Se puede establecer una estimacion por intervalos de o 2 utilizando el estadfstico 

X 2 = ( n ~ 1 )‘ 5 ' 2 
cr 2 

De acuerdo con el teorema 8.4, el estadfstico X 2 tiene una distribution chi cuadrada 
con n — 1 grados de libertad, cuando las muestras se eligen de una poblacion nor- 
mal. Podemos escribir (vease la figura 9.7) 

p (xl - a / 2 < < xl/ 2 ) = 1 - a, 


donde Xi ~ a /2 Y X 2 a j 2 son va l° res de la distribution chi cuadrada con n — 1 grados 
de libertad, que dejan areas de 1 — a/2 y a/2, respectivamente, a la derecha. Al 
sustituir para X 2 , escribimos 


xl 


*/2 


(n — 1)S 2 o 

< J < Xl/2 


= \ — a. 


Al dividir cada termino de la desigualdad entre (n — l)^ 2 y, despues, invertir cada 
termino (lo que cambia el sentido de las clesigualdades), obtenemos 


(n-l)S 2 ^ 2 , (n-l)S 2 

2 < (T < 2 

X a/2 Xy. a/ 2 


= 1 — 0 . 


Para nuestra muestra aleatoria particular de tamano n , se calcula la varianza mues- 
tral s 2 y se obtiene el siguiente intervalo de confianza de (1 — a) 100% para a 2 . 
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Intervalo de 
confianza para er 2 


Ejemplo 9.17: 


Solucion: 



Figura 9.7: P{\ \_ a/2 < X 2 < X 2 a/2 ) = 1 -a. 


Si s 2 es la varianza de una muestra aleatoria de tamano n de una poblacion nor- 
mal, un intervalo de confianza de (1 — a) 100% para o 2 es 

(n - l)s 2 _ _ 2 , (n - l)s 2 

2 ^ ® 2 ■ 

Xa/2 *l-a/2 

donde Xa /2 y Xi-a /2 son valores x 2 con v = n — 1 grados de libertad, que dejan 
areas de a/2 y 1 — a/2, respectivamente, a la derecha. 

Un intervalo de confianza de (1 — a)100% para a se obtiene al tomar la rafz cua- 
drada de cada extremo del intervalo para a 2 . 


Los siguientes son los pesos, en decagramos, de 10 paquetes de semillas para cespecl 
distribuidas por cierta companfa: 46.4, 46.1, 45.8, 47.0, 46.1. 45.9, 45.8, 46.9, 45.2 y 
46.0. Encuentre un intervalo de confianza de 95% para la varianza de todos los pa- 
quetes de semillas para cesped que distribuye esta companfa. Suponga una poblacion 
normal. 

Primero, encontramos 


s 


2 


nE^-(E^i ) 2 

2 = 1 ?'= 1 

n(n — 1) 

(10)(21, 273.12) - (461. 2) 2 

( 19 ) 


0.286. 


Para obtener un intervalo de confianza de 95%, elegimos a = 0.05. Despues, usando 
la tabla A. 5 con v = 9 grados de libertad, encontramos X 0.025 = 19.023 y X 0.075 = 
2.700. Por lo tanto, el intervalo de confianza de 95% para cr 2 es 


(9X0286) 2 (9X0286) 

19.023 2.700 


o simplemente 0.135 < a 2 < 0.953. 


J 
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9.13 Dos muestras: Estimacion de la razon de dos varianzas 

Una estimacion puntual de la razon de dos varianzas poblacionales cr 2 /cr 2 esta 
dada por la razon s 1 /s 2 de las varianzas muestrales. De aqui, el estadistico S\lS\ 
se denomina estimador de cr 2 /cr 2 . 

Si o 2 1 y cr 2 2 son las varianzas de poblaciones normales, podemos establecer una 
estimacion por intervalos de cr 2 / tr 2 usando el estadistico 


*!sr 

De acuerdo con el teorema 8.8, la variable aleatoria Utiene una distribution F con 
Vi = ni — 1 y V 2 = n 2 — 1 grados de libertad. Por lo tanto, podemos escribir (vease 
la figura 9.8) 


P[fi- a / 2 (vi,v 2 ) < F < f a / 2 (vi,v 2 )] = 1- a, 


donde fi- a / 2 (v\, v 2 ) y f a / 2 (vi, v 2 ) son los valores de la distribucion F con v\ y v 2 
grados de libertad, que clejan areas de 1 — a/2 y a/2, respectivamente, a la derecha. 
A1 sustituir para F, escribimos 


P 


fl-a/ 2 (vi,V 2 ) < 


ojSl 

o 2 S 2 


< fa/2(vl,V 2 ) 


= 1 — a. 


A1 multiplicar cada termino en la desigualdad por S 2 /S 1: y despues invertir cada 
termino (de nuevo para cambiar el sentido de las desigualdades), obtenemos 


P 


sf i *l sf i 

_S% f a / 2 (vi,V 2 ) < o\ < Si fl- a/2 (vi,V 2 ) 


a. 


Los resultados del teorema 8.7 nos permiten reemplazar la cantidad fi- a / 2 {vi, v 2 ) 
por 1 // q / 2 ( ui , v 2 ). Por lo tanto, 


P 


Si 


Si f a / 2 (v 1 ,V 2 ) a\ S. 


< % < %f«l 2{02,Vi) 


= 1 — a. 


Para cualesquiera dos muestras aleatorias independientes de tamano ni y n 2 que se 

seleccionan de dos poblaciones normales, la razon de las varianzas muestrales s 1 /s 2 

se calcula y se obtiene el siguiente intervalo de confianza de (1 — a) 100% para 
2/2 
0'l/0'2- 


Intervalo de 

confianza para 
2 / 2 
Cr l/C r 2 


Si s\ y s 2 son las varianzas de muestras independientes de tamano n\ y n 2 , res- 
pectivamente, de poblaciones normales, entonces un intervalo de confianza de 
(1 — a) 100% para cr 2 /cr 2 es 


s 


2 

l 


1 


4 fa/ 2(V1,V 2 ) 



donde f a / 2 (iq, v 2 ) es un valor / con v± = n\ — 1 y v 2 = n 2 — 1 grados de libertad 
que deja un area de a/2 a la derecha, y f a / 2 (v 2 , Ui) es un valor / similar con 
v 2 — n 2 — 1 y Ui = Tii — 1 grados de libertad. 
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Figura 9.8: P[/i_ a / 2 (vi, u 2 ) < F < f a/2 (v i,v 2 )] = 1 - a. 


Como en la seccion 9.12, se obtiene un intervalo de confianza de (1 — a) 100% 
para o\jo 2 al tomar la rai'z cuadrada de cada extremo del intervalo para oq/oq- 


Ejemplo 9.18:1 En el ejemplo 9.11 de la pagina 293 se construyo un intervalo de confianza para la 
diferencia en el contenido medio de ortofosforo, que se mide en miligramos por litro, 
en dos estaciones sobre el rfo James, suponiendo que las varianzas normales de la 
poblacion son diferentes. Justifique esta suposicion mediante la construction de un 
intervalo de confianza de 98% para oq/cr 2 y para oq/cr 2 clonde oq y cr 2 son Frs va- 
rianzas poblacionales del contenido de ortofosforo en la estacion 1 y en la estacion 2, 
respecti vamente . 

Solucion: Del ejemplo 9.11, tenemos n\ = 15, n 2 = 12, Si = 3.07 y s 2 = 0.80. Para un in- 
tervalo de confianza de 98%, a = 0.02. Al interpolar en la tabla A. 6, encontramos 
/o.oi(14,ll) « 4.30 y /o.oi(ll,14) « 3.87. Por lo tanto, el intervalo de confianza de 
98% para <j\/u% es 


3.07 2 / 1 \ 
0.80 2 \430 ) 


cr\ 

<^ 2 < 

oi 


3.07 2 

0.80 2 


(3.87), 


que se simplifica a 3.425 < < 56.991. Al calcular las ratces cuadradas de los luni- 

tes de confianza, encontramos que un intervalo de confianza de 98% para o\ /<r 2 es 


1.851 < — < 7.549. 
02 


Como este intervalo no permite la posibilidad de que cri/f7 2 sea igual a 1, es correcto 
suponer que o cr 2 en e l ejemplo 9.11. 
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Ej ercicios 

9.71 Un fabricante de baten'as para automovil afir- 
ma que sus baten'as duraran, en promedio, 3 arios con 
una varianza de 1 ano. Si 5 de estas baten'as tienen 
duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 anos, construya 
un intervalo de confianza de 95% para <x 2 y decida si 
es valida la afirmacion del fabricante de que a 2 = 1. 
Suponga que la poblacion de duraciones de las baten'as 
se distribuye de forma aproximadamente normal. 

9.72 Una muestra aleatoria de 20 estudiantes obtuvo 
una media de x = 72 y una varianza de s 2 = 16 en 
un examen universitario de colocation en matematicas. 
Suponga que las calificaciones se distribuyen normal- 
mente y construya un intervalo de confianza de 98% 
para <r 2 . 

9.73 Construya un intervalo de confianza de 95% 
para a 2 en el ejercicio 9.12 de la pagina 286. 

9.74 Construya un intervalo de confianza de 99% 
para a 2 en el ejercicio 9.13 de la pagina 286. 

9.75 Construya un intervalo de confianza de 99% 
para a en el ejercicio 9.14 de la pagina 286. 


9.76 Construya un intervalo de confianza de 90% 
para a en el ejercicio 9.15 de la pagina 286. 

9.77 Construya un intervalo de confianza de 98% 
para a\/<J 2 en el ejercicio 9.42 de la pagina 298, donde 
cri y eg son, respectivamente, las desviaciones estan- 
dar para las distancias que se obtienen por litro de 
combustible en los camiones compactos Volkswagen y 
Toyota. 

9.78 Construya un intervalo de confianza de 90% 
para a\/a\ en el ejercicio 9.43 de la pagina 298. ^Esta- 
mos justificados al suponer que <r 2 ^ a 2 cuando cons- 
truimos nuestro intervalo de confianza para p \ — P 2 2 

9.79 Construya un intervalo de confianza de 90% 
para a\ja\ en el ejercicio 9.46 de la pagina 298. ^Debe- 
riamos suponer <r 2 = erf al construir nuestro intervalo 
de confianza para pi — pn? 

9.80 Construya un intervalo de confianza de 95% 
para cr\/a% en el ejercicio 9.49 de la pagina 299. ^De- 
berfa utilizarse la suposicion de la varianza igual? 


9.14 Estimacion de la probabilidad maxima (opcional) 

A menudo los estimadores de parametros son los que recurren a la intuition. El es- 
timador X ciertamente parece razonable como estimador de una media poblacional 
/i. La virtud de S 2 como estimador de er 2 se destaca en el estudio de estimadores 
insesgados de la section 9.3. El estimador para un parametro binomial p es simple- 
mente una proportion de la muestra que, desde luego, es un promedio y recurre al 
sentido comun. Sin embargo, hay muchas situaciones en las cuales no es del todo 
evidente cual deberfa ser el estimador adecuado. Como resultado, el estudiante de 
estadfstica tiene mucho por aprender con respecto a las diferentes filosofi'as que pro- 
ducen diversos metodos de estimacion. En esta section estudiaremos el metodo de 
probabilidad maxima. 

La estimacion por probabilidad maxima representa una de las aproximaciones 
a la estimacion mas importantes en toda la inferencia estadfstica. No haremos un 
desarrollo completo del metodo. En cambio, intentaremos comunicar la filosofi'a de 
la probabilidad maxima y la ilustraremos con ejemplos que la relacionan con otros 
problemas de estimacion que se examinan en este capitulo. 


Funcion de probabilidad 

Como el nombre lo indica, el metodo de probabilidad maxima es aquel para el que se 
maximiza la funcion de probabilidad , la cual se ilustra mejor con un ejemplo de una 
distribution discreta y un solo parametro. Sean X\, X 2 , . . . , X n variables aleatorias 
independientes tomadas de una distribution de probabilidad representada por fix, 9), 
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donde 9 es un solo parametro de la distribution. Ahora bien, 

L(xi,x 2 , . . . ,x n \0) = f(xi,x 2 , ■ • . i.x n ] 9) 

= f{Xl,6)f(X2,0) ■ ■ ■ f(x n ,0) 

es la distribution conjunta de las variables aleatorias. Esto a menudo se denomina 
funcion de probabilidad. Observe que la variable de la funcion de probabilidad es 
9 , no x. Sean x\, x 2 , ■ ■ ■ , x n valores observados en una muestra. En el caso de una 
variable aleatoria discreta la interpretation es muy tiara. La eantidad L(x i, x 2 , . . . , 
x n ', 9), la probabilidad de la muestra, es la siguiente probabilidad eonjunta: 

P(X\ — x\ , X 2 — x 2 , . . . , X n — x n |$), 

que es la probabilidad de obtener los valores muestrales x\, x 2 , . . . , x n . Para el easo 
disereto el estimador de probabilidad maxima es el que tiene como resultado un 
valor maximo para esta probabilidad eonjunta, o que maximiza la probabilidad de 
la muestra. 

Considere un ejemplo fietieio donde se inspeeeionan tres artfeulos que salen de 
una linea de ensamble. Los artfeulos se elasifiean como defeetuosos o no defeetuosos, 
de manera que se apliea el proeeso de Bernoulli. La inspection de los tres artfeulos 
tiene como resultado dos artfeulos no defeetuosos seguidos por uno defectuoso. Es 
de interes estimar p , la proporcion de no defeetuosos en el proeeso. La probabilidad de 
la muestra para esta ilustracion esta clada por 

p-p- q = p 2 q = P 2 ~ P 3 , 

donde q = 1 — p. La estimation de probabilidad maxima darfa una estimation de 
p para la que se maximiza la probabilidad. Resulta claro que si diferenciamos la 
probabilidad con respecto a p, hacemos la derivada igual a cero y la resolvemos, 
obtenemos el valor 


2 



Entonces, por supuesto, en esta situation p = 2/3 es la proporcion muestral de 
defeetuosos y, por ello, un estimador razonable de la probabilidad de un defectuoso. 
El lector deberfa intentar comprender que la filosoffa de la estimation de probabili- 
dad maxima proviene de la notion de que el estimador razonable de un parametro 
que se basa en information muestral es el valor del parametro que produce la mayor 
probabilidad de obtener la muestra. Esta es, de hecho, la interpretation para el caso 
disereto, pues se trata de la probabilidad de observar de manera conjunta los valores 
en la muestra. 

Asf, mientras que la interpretation de la funcion de probabilidad como una pro- 
babilidad conjunta se reduce al caso disereto, la notion de probabilidad maxima se 
extiende a la estimation de parametros de una distribution continua. Presentamos 
ahora una definition formal de la estimation de probabilidad maxima. 


Definition 9.3: 


Dadas las observations independientes x\, x 2 , . . . , x n de una funcion de densidad 
de probabilidad (caso continuo) o de una funcion de masa de probabilidad (caso 
disereto) /( x, 9), el estimador de probabilidad maxima 9 es el que maximiza la 
funcion de probabilidad 

L(xi,x 2 , . . . ,x n ;9) = f(xi, 0)f(x 2 , 9) ■ ■ ■ f(x n , 9). 


Muy a menudo conviene trabajar con el logaritmo natural de la funcion de pro- 
babilidad para encontrar el maximo de esta. Considere el siguiente ejemplo acerca 
del parametro p de una distribution de Poisson. 
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Ejemplo 9.19:1 

Solucion: 


Ejemplo 9.20:1 
Solucion: 


Considere una distribution de Poisson con funcion de masa de probabilidad 

/(*|M) = ^ x = 0,1,2, ... . 
x\ 

Suponga que se toma una muestra aleatoria x\, X 2 , ■ ■ ■ , x n de la distribucion. ^Cual 
es la estimation de probabilidad maxima de /i? 

La funcion de probabilidad es 


n 

L(xi,x 2 , . . . ,x n : p) = Yl f(xi \p) 

i= 1 


e 


E x, 
M i= 


nr=i 


Considere ahora 


n n 

\i\L{xi,X 2 , ...,x n ;p) = -np + ^2, Xi - 

i= 1 i=l 

dh\L(x\, X 2 , ■ ■ ■ ,x n \ p) 

» = ~ n + V — • 


A1 resolver para p, el estimador de probabilidad maxima implica hacer la derivada 
igual a cero y resolver para el parametro. De esta forma, 




Xi 


n 


= x. 


Como p es la media de la distribucion de Poisson (capitulo 5), el promedio muestral 
en realidad pareceria ser un estimador razonable. 

El siguiente ejemplo presenta el uso del metodo de probabilidad maxima para 
encontrar estimaciones de dos parametros. Simplemente encontramos los valores de 
los parametros que maximizan (de forma conjunta) la funcion de probabilidad. 


Considere una muestra aleatoria xi, X 2 , ■ ■ ■ , x n de una distribucion normal N(p, oj. 
Encuentre los estimadores de probabilidad maxima para p y o 1 . 

La funcion de probabilidad para la distribucion normal es 


L{X\,X 2 , • • • , x n \ p, <j 2 ) 


1 

(27t)«/ 2 (ct 2 )«/2 6XP 



2 ' 


A1 tomar logaritmos da 


lnL(xi,#2, 


2\ ^ i ^ i 2 

,X n \[i,o ) = --ln(27r) - — lncr 


i n / \ 2 

i=i v 7 


d In L / Xi — p 

dp l a 2 

^=l 


Por lo tanto. 
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Ejemplo 9.21: 


Solucion: 


y 

9 In L n 1 2 

= ~ 2 ^ + 2(^)2 ^ Xi ~ /i) "' 

A1 igualar la derivada a cero, obtenemos 

n n 

^ ~2xi-np = 0 y no 2 = ^(xi - p) 2 . 

2=1 2 = 1 

De manera que el estimador de probabilidad maxima esta dado por 

1 . ra . 

[i = -y Xi = x, 

2=1 

este resultado es satisfactorio, ya que a: juega un papel importante en este capitulo 
como estimador puntual de /./. Por otro lado, el estimador de probabilidad maxima 
de cr 2 es 




A1 verificar la matriz derivada parcial de segundo orden se confirma que las solucio- 
nes que resultan en el maximo de la funcion de probabilidad. 

Resulta interesante notar la distincion entre el estimador de probabilidad maxima 
de cr 2 y el estimador insesgado S 2 que se desarrollo al principio de este capitulo. El 
numerador es identico, por supuesto, y el denominador son los “grados de liber- 
tad” n — 1 para el estimador insesgado, y n para el estimador de probabilidad 
maxima. Los estimadores de probabilidad maxima no necesariamente gozan de la 
propiedad de estar insesgados. Sin embargo, los estimadores de probabilidad maxi- 
ma tienen importantes propiedades asintoticas. 


Suponga que se utilizan 15 ratas en un estudio biomedico, donde a los roedores se les 
inyectan celulas cancerosas y se les suministra un farmaco contra el cancer disenado 
para aumentar su tasa de supervivencia. Los tiempos de supervivencia, en meses, 
son 14, 17, 27, 18, 12, 8, 22, 13, 19 y 12. Suponga que se aplica la distribution expo- 
nential. De una estimation de probabilidad maxima de la supervivencia media. 

Del capitulo 6 sabemos que la funcion de densidad de probabilidad para la variable 
aleatoria exponential X es 


hr x<fi , x>0, 


0, en cualquier otro caso. 


f(x,P) = * 

Por ello, la probabilidad logarftmica de los datos dados (n = 10) es 


10 

= —10 In (3 - ^ 5Z x i- 
2 = 1 


In L(x\,X 2 , ■ ■ .,x w -,0) 
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Ejemplo 9.22: 


Solucion: 


A1 hacer 


implica que 


din L 
dp 


10 

J 


10 


Xj = o 



i= 1 


La segunda derivada de la probabilidad logantmica evaluada en el valor P anterior 
da como resultado un valor negativo. Como resultado el estimador del parametro /?, 
la media de la poblacion, es el promedio muestral x. 

El siguiente ejemplo ilustra el estimador de probabilidad maxima para una dis- 
tribution que no se incluye en los capitulos anteriores. 


Se sabe que una muestra de 12, 11.2, 13.5, 12.3, 13.8 y 11.9 se tomo de una poblacion 
con la funcion de clensidad 





x > 1, 

en cualquier otro caso. 


donde 9 > 0. Encuentre la estimation de probabilidad maxima de 9. 

La funcion de probabilidad de n observaciones de esta poblacion se escribe como 


n 

L(xi,x 2 ,...,x 10 ;6) = ] J [ 

i= 1 


r.0+1 


(nr=i^r +l ’ 


lo cual implica que 


n 

en L(x\,X 2 , ■ . • ,xi 0 ; 6) = nln(0) - (9 + 1) ^ln(xj). 

i—1 


Hacer 0 = 


n 

j — J2 ln(aii) da como resultado 


6 = 


n 

n 

E ln(a:i) 


6 

ln(12) + ln(11.2) + ln(13.5) + ln(12.3) + lu(13.8) + ln(11.9) 


0.3970. 


Como la segunda derivada de L es —n/9 2 , que siempre es negativa, la funcion de 
probabilidad alcanza su valor maximo en 9 . 
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Comentarios adicionales con respecto a la estimacion 
por probabilidad maxima 

Una discusion completa de las propiedades de la estimacion por probabilidad ma- 
xima esta fuera del alcance de este libro y, por lo general, es un tema principal de 
un curso teorico sobre inferencia estadistica. El metodo de probabilidad maxima 
permite al analista utilizar el conocimiento de la distribution para determinar un 
estimador adecuado. El metodo de probabilidad maxima no sepuede aplicarsin el cono- 
cimiento de la distribucion subyacente. En el ejemplo 9.20 aprendimos que el esti- 
mador de probabilidad maxima no necesariamente esta insesgado. El estimador de 
probabilidad maxima esta insesgado asintoticamente o en el limite ; es decir, la magni- 
tud del sesgo se aproxima a cero conforme la muestra se hace mas grande. Al princi- 
pio de este capitulo examinamos la notion de eficacia, que se vincula con la propiedad 
de varianza de un estimador. Los estimadores de probabilidad maxima tienen pro- 
piedades de varianza cleseables en el limite. El lector deberia consultar la obra de 
Lehmann para mas detalles. 


Ej ercicios 

9.81 Suponga que hay n pruebas xi, xs,...,x n de un 
proceso de Bernoulli con parametro p , la probabilidad 
de un exito. Es decir, la probabilidad de r exitos esta 
dada por (")p r ( 1 — p) n ~ r . Determine el estimador de 
probabilidad maxima para el parametro p. 

9.82 Considere una muestra de x\, * 2 , . . . , x n obser- 
vaciones de una distribucion de Weibull con parame- 
tros a y j3 y funcion de densidad 

a/3x^~ 1 e~ axl3 , x>0, 

0, en cualquier otro caso, 

para a, (3 > 0. 

a) Escriba la funcion de probabilidad. 

b) Escriba las ecuaciones que al resolverse dan los esti- 
madores de probabilidad maxima de a y j3. 

9.83 Considere la distribucion logaritmica normal 
con la funcion de densidad dada en la section 6.9. Su- 
ponga que tenemos una muestra xi, X 2 , ■ ■ ■ , x n de una 
distribucion logaritmica normal. 

a) Escriba la funcion de probabilidad. 

b) Desarrolle los estimadores de probabilidad maxima 
de p y a 2 . 

Ejercicios de repaso 

9.87 Considere dos estimadores de a 2 en una muestra 
xi, X 2 , • • • , x n , que se extrae de una distribucion normal 
con media p y varianza <j 2 . Los estimadores son el esti- 

n 

mador insesgado s 2 = J2( x i ~ x) 2 , y el estimador 
n <= i 


9.84 Considere las observaciones xi, * 2 , • • • , x n de la 
distribucion gamma que se discutio en la section 6.6. 

a) Escriba la funcion de probabilidad. 

b) Escriba un conjunto de ecuaciones que cuando se 
resuelvan den los estimadores de probabilidad maxi- 
ma de a y (3. 

9.85 Considere un experimento hipotetico donde un 
hombre con un hongo utiliza un medicamento fungici- 
da y se cura. Considerelo, entonces, como una muestra 
de uno de una distribucion de Bernoulli con funcion de 
probabilidad 

f(x)=p x q 1 ~ x , * = 0,1, 

donde p es la probabilidad de un exito (curacion) y 
q — 1 — p. Ahora, por supuesto, la information mues- 
tral da x = 1. Escriba un desarrollo que demuestre que 
p = 1.0 es el estimador de probabilidad maxima de la 
probabilidad de curacion. 

9.86 Considere la observation X de la distribucion 
binomial negativa dada en la section 5.5. Encuentre 
el estimador de probabilidad maxima para p, con k 
desconocida. 


de probabilidad maxima <r 2 = L ^2-(xi — x) 2 . Discuta 

i=i 

las propiedades de la varianza de estos dos estimadores. 

9.88 Se afirma que una nueva dieta reducira en 4.5 
kilogramos el peso de un individuo, en promedio, en 
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un lapso de 2 semanas. Los pesos de 7 mujeres que si- 
guieron esta dieta se registraron antes y despues de un 
periodo de 2 semanas. 


Mujer 

Peso antes 

Peso despues 

1 

58.5 

60.0 

2 

60.3 

54.9 

3 

61.7 

58.1 

4 

69.0 

62.1 

5 

64.0 

58.5 

6 

62.6 

59.9 

7 

56.7 

54.4 


Pruebe la afirmacion del fabricante calculando un in- 
tervalo de confianza de 95% para la diferencia media 
en el peso. Suponga que las diferencias de los pesos se 
distribuyen de forma aproximadamente normal. 

9.89 De acuerdo con el Roanoke Times (16 de mar- 
zo de 1997), la cadena McDonald’s vendio 42.1% del 
mercado de hamburguesas. Una muestra aleatoria de 
75 hamburguesas vendidas tiene como resultado que 
28 de ellas fueron vendidas por McDonald’s. Utilice el 
material de la section 9.9 para determinar si esta infor- 
mation apoya la afirmacion del Roanoke Times. 

9.90 Se llevo a cabo un estudio en el Instituto Politec- 
nico y Universidad Estatal de Virginia para determinar 
si el fuego se puede utilizar como una herramienta de 
control viable, para aumentar la cantidad de forraje 
disponible para los venados, durante los meses crfticos 
a finales del invierno y principios de la primavera. El 
calcio es un elemento que requieren las plantas y los 
animales. La cantidad que la planta toma y almacena 
esta estrechamente correlacionada con la cantidad pre- 
sente en el suelo. Se formulo la hipotesis de que el fuego 
puede cambiar los niveles de calcio presentes en el sue- 
lo y afectar asf la cantidad disponible para los venados. 
Se selecciono una extension grande de tierra en el Fis- 
hburn Forest para efectuar un incendio controlado. Se 
tomaron muestras de suelo de 12 parcelas de igual area 
justo antes de la quema, y se analizaron para verificar 
el contenido de calcio. Los niveles de calcio despues de 
la quema se analizaron en las mismas parcelas. Tales 
valores, en kilogramos por parcela, se presentan en la 
siguiente tabla: 

Nivel de calcio (kg/parcela) 

Antes de Despues de 

Parcela la quema la quema 


1 

50 

9 

2 

50 

18 

3 

82 

45 

4 

64 

18 

5 

82 

18 

6 

73 

9 

7 

77 

32 

8 

54 

9 

9 

23 

18 

10 

45 

9 

11 

36 

9 

12 

54 

9 


Construya un intervalo de confianza de 95% para la di- 
ferencia media en el nivel de calcio presente en el suelo 


antes y despues del incendio controlado. Suponga que 
la distribution de las diferencias en los niveles de calcio 
es aproximadamente normal. 

9.91 Un gimnasio con spa afirma que un nuevo pro- 
grama de ejercicios reducira la talla de la cintura de 
una persona en 2 centfmetros, en promedio, durante 
un periodo de 5 dfas. Las tallas de cintura de 6 hom- 
bres que participaron en este programa de ejercicio se 
registraron, antes y despues del periodo de 5 dfas, en 
la siguiente tabla: 



Talla de 

Talla de 

Hombre cintura antes 

cintura despues 

1 

90.4 

91.7 

2 

95.5 

93.9 

3 

98.7 

97.4 

4 

115.9 

112.8 

5 

104.0 

101.3 

6 

85.6 

84.0 

Mediante el calculo de un intervalo de confianza de 

95% para 

la reduction media 

de la talla de cintura, 

determine 

si la afirmacion del 

gimnasio con spa es va- 

lida. Suponga que la distribution de las diferencias de 
tallas de cintura antes y despues del programa es apro- 

ximadamente normal. 


9.92 El Departamento de Ingenierfa Civil del Institu- 
to Politecnico y Universidad Estatal de Virginia com- 

paro una 

tecnica de ensayo modihcada (M-5 hr) para 

recuperar 

coliformes fecales en 

residuos lfquidos (char- 

cos) de agua de lluvia, en un area urbana con la tecnica 
del numero mas probable (nmp). Se colectaron un total de 
12 muestras de tales residuos y se analizan con las dos 
tecnicas. Los conteos de coliformes fecales por 100 ini- 
lilitros se registraron en la siguiente tabla: 

Muestra Conteo nmp Conteo con M-5 hr 

1 

2300 

2010 

2 

1200 

930 

3 

450 

400 

4 

210 

436 

5 

270 

4100 

6 

450 

2090 

7 

154 

219 

8 

179 

169 

9 

192 

194 

10 

230 

174 

11 

340 

274 

12 

194 

183 


Construya un intervalo de confianza de 90% para dife- 
rencia en los conteos medios de coliformes fecales entre 
las tecnicas M-5 hr y nmp. Suponga que las diferencias 
de conteos se distribuyen de forma aproximadamente 
normal. 

9.93 Se lleva a cabo un experimento para determinar 
si el acabado superficial tiene un efecto sobre el lfmite 
de fatiga del acero. Una teorfa existente indica que el 
pulido aumenta el lfmite de fatiga medio (flexion in- 
versa). Desde un punto de vista practico, el pulido no 
deberfa tener efecto alguno en la desviacion estandar 
del lfmite de fatiga, el cual se sabe que es de 4000 psi, 
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gracias a la realization de diversos experimentos de h- 
niite de fatiga. El experimento se realiza sobre acero 
al carbon al 0.4% usando espetimenes sin y con pulido 
suave. Los datos son los siguientes: 


Li mite de fatiga (psi) para: 


Acero al carbon 
0.4% pulido 

Acero al carbon 
0.4% sin pulir 

85,500 

82,600 

91,900 

82,400 

89,400 

81,700 

84,000 

79,500 

89,900 

79,400 

78,700 

69,800 

87,500 

79,900 

83,100 

83,400 


Encuentre un intervalo de confianza de 95% para la 
diferencia entre las medias poblacionales para los dos 
metodos. Suponga ciue las poblaciones se distribuyen 
de forma aproximadamente normal. 

9.94 Un antropologo se interesa en la proportion de 
individuos de dos tribus indias con doble remolino de ca- 
bello en la zona occipital de la cabeza. Suponga que se 
toman muestras independientes de cada una de las dos 
tribus, y se encuentra que 24 de 100 individuos de la tribu 
A y 36 de 120 individuos de la tribu B poseen tal carac- 
terfstica. Construya un intervalo de confianza de 95% 
para la diferencia pb — Pa entre las proporciones de 
estas dos tribus con remolinos de cabello en la zona 
occipital de la cabeza. 

9.95 Un fabricante de planchas electricas produce 
estos artfculos en dos plantas. Ambas plantas tienen 
al mismo proveedor de partes pequenas. Se puede te- 
ner un ahorro al comprar termostatos para la plan- 
ta B de un proveedor local. Se compra un solo lote 
del proveedor local y se desea probar si estos nue- 
vos termostatos son tan precisos como los anteriores. 
Los termostatos se prueban en planchas a 550 °F, y las 
temperaturas reales se redondean al siguiente 0.1 °F 
con un termopar. Los datos son los siguientes: 



Proveedor 

nuevo 

(°F) 


530.3 

559.3 

549.4 

544.0 

551.7 

566.3 

549.9 

556.9 

536.7 

558.8 

538.8 

543.3 

559.1 

555.0 

538.6 

551.1 

565.4 

554.9 

550.0 

554.9 

554.7 

536.1 

569.1 



Proveedor anterior (°F) 


559.7 

534.7 

554.8 

545.0 

544.6 

538.0 

550.7 

563.1 

551.1 

553.8 

538.8 

564.6 

554.5 

553.0 

538.4 

548.3 

552.9 

535.1 

555.0 

544.8 

558.4 

548.7 

560.3 



Encuentre un intervalo de confianza de 95% para 
a 2 /a 2 y para eri/<72 , donde a 2 y son las varianzas 
poblacionales de las lecturas de los termostatos del pro- 
veedor nuevo y del anterior, respectivamente. 


9.96 Se afirma que la resistencia del alambre A es 
mayor que la del alambre B. Un experimento sobre los 
alambres muestra los siguientes resultados (en ohms): 

Alambre A 

Alambre B 

0.140 

0.135 

0.138 

0.140 

0.143 

0.136 

0.142 

0.142 

0.144 

0.138 

0.137 

0.140 


Suponiendo varianzas iguales, i,que conclusiones ex- 
trae? Justifique su respuesta. 

9.97 Una forma alternativa de estimation se lleva a 
cabo a traves del metodo de momentos. El metodo im- 
plica igualar la media y la varianza poblacionales a las 
correspondientes media muestral x y varianza muestral 
s 2 , y resolver para el parametro; el resultado son los 
estimadores del momento. En el caso de un solo pa- 
rametro, unicamente se utilizan las medias. De un ar- 
gumento de que en el caso de la distribution de Poisson 
el estimador de probabilidad maxima y los estimadores 
del momento son iguales: 

9.98 Especifique los estimadores del momento para p 
y a 2 para la distribution normal. 

9.99 Especifique los estimadores del momento para p y 
<t 2 para la distribution logarftmica normal. 

9.100 Especifique los estimadores del momento para 
ay (3 para la distribution gamma. 

9.101 Se realizo una encuesta con la finalidad de 
comparer los sueldos de administradores de plantas 
qufmicas empleados en dos areas del pai's: las regiones 
norte y centro-occidente. Se eligieron muestras alea- 
torias independientes de 300 gerentes de planta para 
cada una de las dos regiones. A tales gerentes se les 
pregunto el monto de su sueldo anual. Los resultados 
fueron. 

Norte Centro-Occidente 

xi = $102,300 x 2 = $98,500 
si = $5,700 s 2 = $3,800 

a) Construya un intervalo de confianza de 99% en 
Pi — P2- la diferencia en los dos sueldos medios. 

b) ^Cual es la suposicion que usted hizo en el inciso 
a) acerca de la distribution de los sueldos anuales 
para las dos regiones? ^Es necesaria la suposicion de 
normalidad? £Por que? 

c) iQue suposicion hizo acerca de las dos varianzas? 
^Es razonable la suposicion de igualdad de varian- 
zas? 

9.102 Considere el ejercicio de repaso 9.101. Supon- 
gamos que los datos no se han recabado aun. Suponga- 
mos tambien que los estadfsticos previos sugieren que 
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a i = <j 2 = $4000. Los tamanos de las muestras en el 
ejercicio de repaso 9.101 son suficientes para produ- 
cir un intervalo de confianza de 95% en — p 2 que 
tenga un ancho de solo $1000? Presente el desarrollo 
completo. 

9.103 Un sindicato especffico se preocupa por el no- 
torio ausentismo de sus miembros. El sindicato decidio 
verificar esto monitoreando una muestra aleatoria de 
sus miembros. A los lfderes del sindicato siempre se les 
ha reclamado que, en un mes tfpico, 95% de sus afilia- 
dos estan ausentes al menos 10 horas mensuales. Uti- 
lice los datos para responder tal reclamation. Utilice un 
li'mite de tolerancia unilateral y elija el nivel de con- 
fianza de 99%. Asegurese de aplicar lo que ya sabe 
acerca del calculo del li'mite de tolerancia. El numero 
de miembros en esta muestra fue 300. El numero de 
horas de ausentismo se registro para cada uno de los 
300 miembros. Los resultados fueron x = 6.5 horas y 
s — 2.5 horas. 

9.104 Se selecciono una muestra aleatoria de 30 em- 
presas que comercializan productos inalambricos para 
determinar la proportion de tales firmas que implemen- 
taron software nuevo para mejorar la productividad. 
Resulto que 8 de 30 habfan implementado tal software. 
Encuentre un intervalo de confianza de 95% en p, la 
proportion real de tales empresas que implemento el 
nuevo software. 

9.105 Refierase al ejercicio de repaso 9.104. Supon- 
ga que hay interes en si la estimation puntual p = 
8/30 el lo suficientemente precisa porque el intervalo 
de confianza alrededor de p no es suficientemente estre- 
cho. Utilizando p como nuestro estimado de p, ^,cuan- 
tas companfas necesitarfan muestrearse para tener un 
intervalo de confianza de 95% con un ancho de solo 
0.05? 

9.106 Un fabricante produce un artfculo que se cla- 
sifica como “defectuosos” o “no defectuoso”. Para esti- 
mar la proporcion de defectuosos, se toma una muestra 
aleatoria de 100 artfculos de la production y se en- 
cuentran 10 defectuosos. Despues de la implementa- 
tion del programa de mejoramiento de la calidad, se 
realizo nuevamente el experimento. Se tomo una nueva 
muestra de 100 y esta vez unicamente 6 salieron de- 
fectuosos. 

a) Dado un intervalo de confianza de 95% en p\ — p 2 , 
donde p\ es la proporcion de defectuosos de la po- 
blacion antes de la mejorfa, y P 2 es la proporcion de 
defectuosos despues de la mejorfa. 

b) f,Hay information en el intervalo de confianza que 
se encontro en el inciso a) que sugiera que p\ > p 2 ? 
Explique. 

9.107 Se utiliza una maquina para llenar cajas de un 
producto en una operation de la lfnea de ensamble. Mu- 
cho del interes se centra en la variabilidad del numero 
de onzas del producto en la caja. Se sabe que la desvia- 
cion estandar en el peso del producto es de 0.3 onzas. Se 


realizan mejoras y luego se toma una muestra aleatoria 
de 20 cajas y se encuentra que la varianza de la muestra 
es 0.045 onzas. Encuentre un intervalo de confianza de 
95% en la varianza del peso del producto. Considerando 
el rango del intervalo de confianza, ^parecerfa que el me- 
joramiento en el proceso incremento la calidad en cuanto 
a variabilidad se refiere. Suponga normalidad en la dis- 
tribution del peso del producto. 

9.108 Un grupo de consumidores esta interesado en 
comparar los costos de operation para dos diferentes ti- 
pos de motor para automovil. El grupo es capaz de en- 
contrar 15 propietarios cuyos automoviles tienen motor 
tipo A y 15 que tienen motor tipo B. Los 30 propieta- 
rios compraron sus automoviles en aproximadamente 
el mismo tiempo y todos llevan buenos registros por 
cierto periodo de 12 meses. Ademas, se encontro que 
los propietarios recorrieron aproximadamente el mismo 
numero de millas. Los estadfsticos de costo son xjA = 
$87.00/1,000 millas, y B = $75.00/1,000 millas, sa = 
$5.99, y sb = $4.85. Calcule un intervalo de confianza 
de 95% para estimar p,A — Pb, la diferencia en el costo 
medio de operation. Suponga normalidad e igual va- 
rianza. 

9.109 Considere el estadfstico S 2 , el estimado de 
union de a 2 . El estimador se examino en la section 
9.8 y se utiliza cuando se esta dispuesto a suponer que 
a 2 = a 2 = cr 2 . Demuestre que el estimador esta inses- 
gado para a 2 (es decir, demuestre que E(S 2 ) = a 2 ). 
Puede utilizar los resultados de cualquier teorema o 
ejemplo del capitulo 9. 

9.110 Un grupo de investigadores del factor humano 
estan interesados en la reaction de los pilotos de avion 
ante un estfmulo con cierta disposition de la cabina del 
avion. Se realizo un experimento de simulation en un 
laboratorio y se utilizaron 15 pilotos con un tiempo de 
reaction promedio de 3.2 segundos y una desviacion 
estandar muestral de 0.6 segundos. Resulta de interes 
caracterizar los extremos (es decir, el escenario del peor 
de los casos). Para tal objetivo, responda lo siguiente: 

a) Determine un importante li'mite de confianza espe- 
cffico de 99% unilateral en el tiempo medio de reac- 
tion. f,Que suposicion, si la hubiera, deberfa hacer 
acerca de la distribution del tiempo de reaction? 

b) Determine un intervalo de prediction de 99% uni- 
lateral y de una interpretation de lo que significa. 
^Deberfa usted hacer alguna suposicion sobre la dis- 
tribution del tiempo de reaction para calcular este 
li'mite? 

c) Calcule un li'mite de tolerancia unilateral con 99% 
de confianza que implique 95% del tiempo de reac- 
tion. De nuevo, si las hubiera, de una interpretation 
y una suposicion de la distribution. [Nota: Los va- 
lores del li'mite de tolerancia unilateral tambien se 
incluyen en la tabla A. 7.] 

9.111 Cierto proveedor fabrica un tipo de estera de 
goma que vende a las companfas automotrices. En la 
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aplicacion, las piezas del material deben tener ciertas 
caracterfsticas de dureza. Ocasionalmente, se detectan 
las esteras defectuosas y se rechazan. El proveedor afir- 
ma que la proporcion de defectuosas es 0.05. El desaffo 
llego de un cliente que compro el producto. De manera 
que se realizo un experimento donde se probaron 400 
esteras y se encontraron 17 defectuosas. 


a) Calcule un intervalo de confianza bilateral de 95% 
en la proporcion de defectuosos. 

b) Calcule un intervalo de confianza unilateral de 95% 
adecuado en la proporcion de defectuosos. 

c) Interprete los intervalos de ambos incisos y comente 
acerca de la afirmacion hecha por el proveedor. 


9.15 Nociones erroneas y riesgos potenciales; 

relacion con el material de otros capitulos 

El concepto de un intervalo de confianza de muestra grande en una poblacion a 
menudo confunde a los estudiantes que se inician en esta materia, lo cual tiene como 
base la prescription que incluso cuando se clesconoce a y no se esta convencido de 
que la distribution que se muestrea sea normal, entonces un intervalo de confianza 
en p puede calculares de 


x ± z 



En la practica, esto se usa frecuentemente cuando la muestra es demasiado pequena. 
El origen de este intervalo de muestra grande es, por supuesto, el teorema del lnnite 
central (tlc), con el cual no se requiere la normalidad. Aquf, el tlc requiere una cr, 
de la cual s sea solo una estimation. Entonces, el requerimiento es que n sea, por lo 
menos, tan grande como 30 y la distribution subyacente este cercana a la simetrfa, 
en cuyo caso el intervalo sigue siendo una aproximacion. 

Hay casos en que la aplicacion practica del material del capftulo 9 debe super- 
visarse en el contexto de ese capftulo. Un ejemplo importante es el uso de la distri- 
bution t, para el intervalo de confianza sobre p cuando se desconoce cr. En sentido 
estricto, el uso de la distribution t requiere que la muestra de la distribution sea 
normal. Sin embargo, se sabe bien que cualquier aplicacion de la distribution t es 
razonablemente insensible (es decir, robusta) a la suposicion de normalidad. Esto 
representa una de esas situaciones afortunadas que ocurren en el campo de la esta- 
dfstica, donde no se mantiene el supuesto basico e incluso “jtodo resulta correcto!” 
Sin embargo, una poblacion de la que se toma no puede desviarse sustancialmente 
de la normal. Entonces, a las graficas de probabilidad normal estudiadas en el capf- 
tulo 8 y a las pruebas de bondad del ajuste que se presentan en el capftulo 10 se les 
requerira con frecuencia que indaguen algun sentido de “cercanfa a la normalidad” . 
Esta idea de “robusteza de la normalidad” vuelve a presentarse en el capftulo 10. 

Por experiencia, sabemos que uno de los mas graves “usos incorrectos de la 
estadfstica” en la practica surge de la confusion en la distincion entre la interpreta- 
tion de los tipos de intervalos estadfsticos. Por eso, en este capftulo ofrecemos una 
subsection donde se examinan las diferencias entre los tres tipos de intervalos. Es 
muy probable que, en la practica, el intervalo de confianza utilice en exceso, 
es decir, se emplea cuando en realidad no hay interes en la media. Mas bien habrfa 
algunas preguntas del tipo: “7a donde va a caer la siguiente observation?” O, a 
menudo, y mas importante: “^donde esta la mayorfa de la distribution?” Estas son 
preguntas fundamentales que no pueden responderse calculando un intervalo en la 
media. Un intervalo de confianza generalmente se emplea incorrect amente como 
un intervalo tal que la probabilidad de que el parametro caiga en este intervalo es, 
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digamos, 95%, lo cual es una interpretation correcta del intervalo posterior ba- 
yesiano. (Para mayores referencias sobre la inferencia bayesiana vease el capitulo 
18). El intervalo de confianza tan solo sugiere que si el experimento o los datos se 
observan una y otra vez, aproximadamente el 95% de tales intervalos contendra el 
parametro real. Cualquier estudiante que se inicie en la estadtstica practica cleberta 
tener muy tiaras las diferencias entre estos intervalos estadtsticos. 

Otra aplicacion incorrecta potential grave de la estadtstica es el uso de la distri- 
bution x 2 para un intervalo de confianza de una sola varianza. De nuevo se supone 
normalidad en la distribution a partir de la cual se toma la muestra. A diferencia del 
uso de la distribution t, el uso de la prueba y 2 para esta aplicacion no es robusta 

para la suposicion de normalidad (es clecir, la distribution muestral ^ se 
desvta bastante de y 2 si la distribution subyacente no es normal). Entonces, el uso 
correcto de la prueba de bondad del ajuste (capitulo 10) y/o las graficas de proba- 
bilidad normal puede ser muy import ante aqut. Mas information sobre esta cuestion 
general en particular se vera en los siguientes capttulos. 



Capftulo 10 

Pruebas de hipotesis de 
una y dos muestras 


10.1 Hipotesis estadfsticas: Conceptos generales 

A menudo, el problema al que se enfrentan el cientffico o el ingeniero no es tan- 
to la estimation de un parametro poblacional, como vimos en el capftulo 9, sino 
mas bien la formation de un procedimiento de decision que se base en los datos, 
el cual ofrezca una conclusion acerca de algun sistema cientffico. Por ejemplo, un 
investigador medico puede decidir, sobre la base de evidencia experimental, si en 
los seres humanos beber cafe incrementa el riesgo de padecer cancer; un ingeniero 
quiza tenga que decidir sobre la base de datos muestrales si hay una diferencia 
entre la precision de dos tipos de medidores; o tal vez un sociologo desee reunir 
los datos apropiados que le permitan decidir si el tipo sangufneo de un individuo 
y el color de los ojos son variables independientes. En cada uno de estos casos, el 
cientffico o el ingeniero postulan o conjeturan algo acerca de un sistema. Ademas, 
cada uno debe incluir el uso de datos experimentales y la toma de decisiones ba- 
sadas en ellos. De manera formal, en cada caso, la conjetura se puede poner en 
forma de hipotesis estadfstica. Los procedimientos que conducen a la aceptacion o 
al rechazo de hipotesis estadfsticas como estas comprenden un area importante 
de la inferencia estadfstica: Primero, definamos con precision lo que entendemos 
por hipotesis estadfstica. 


Definition 10.1: 


Una hipotesis estadfsticas es una aseveracion o conjetura con respecto a una o 
mas poblaciones. 


La verdad o falsedad de una hipotesis estadfstica nunca se sabe con absoluta 
certidumbre, a menos que examinemos toda la poblacion, lo cual, por supuesto, 
serfa poco practico en la mayorfa de las situaciones. En cambio, tomamos una mues- 
tra aleatoria de la poblacion de interes, y utilizamos los datos contenidos en esta 
muestra para proporcionar evidencia que apoye o no la hipotesis. La evidencia de 
la muestra que sea inconsistente con la hipotesis que se establece conduce al rechazo 
de esta. 
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El papel de la probabilidad en la prueba de hipotesis 

Deberfa quedar claro al lector que un procedimiento de decision clebe hacerse con 
la notion de la probabilidad de una conclusion erronea. Por ejemplo, suponga que la 
hipotesis que postulo el ingeniero es que la fraction p de defectuosos en cierto proce- 
so es 0.10. El experimento es la observation de una muestra aleatoria del producto 
en cuestion. Suponga que se prueban 100 articulos y se encuentran 12 defectuosos. 
Es razonable concluir que esta evidencia no rechaza la condition p = 0.10, y por 
ello puede conducir a la aceptacion de la hipotesis. Sin embargo, tampoco rechaza 
p = 0.12 o quiza incluso p = 0.15. Como resultado, el lector se debe acostumbrar 
a comprender que el rechazo de una hipotesis simplemente implica que la 
evidencia de la muestra la refuta. Por otro lado, el rechazo significa que hay 
una pequeha probabilidad de obtener la information muestral observada 
cuando, de hecho, la hipotesis es verdadera. Por ejemplo, en nuestra hipotesis 
de la proportion de defectuosos, una muestra de 100 que revela 20 articulos defec- 
tuosos es ciertamente evidencia de rechazo. ^Por que? Si, en realidad, p — 0.10, la 
probabilidad de obtener 20 o mas defectuosos es aproximadamente 0.002. Con el 
pequeho riesgo resultante de una conclusion erronea, pareceria seguro rechazar la 
hipotesis de que p = 0.10. En otras palabras, el rechazo de una hipotesis tiende 
a casi “descartar” la hipotesis. Por otro lado, es muy importante enfatizar que la 
aceptacion o, mas bien, la falla al rechazo no excluye otras posibilidades. Como re- 
sultado, el analista de los datos establece una conclusion firme cuando se rechaza 
una hipotesis. 

El planteamiento formal de una hipotesis a menudo esta influido por la estructu- 
ra de la probabilidad de una conclusion erronea. Si el cientifico se interesa en apoyar 
con fuerza una opinion, desea llegar a la opinion en la forma del rechazo de una hipo- 
tesis. Si el investigador medico desea mostrar evidencia solida a favor de la opinion 
de que beber cafe aumenta el riesgo de contraer cancer, la hipotesis a probar deberfa 
tener la forma “no hay aumento en el riesgo de padecer cancer como consecuencia de 
beber cafe”. Como resultado, la opinion se alcanza mediante un rechazo. De manera 
similar, para apoyar la afirmacion de que un tipo de medidores es mas preciso que 
otro, el ingeniero prueba la hipotesis de que no hay diferencia en la precision de los 
dos tipos de medidor. 

Lo anterior implica que cuando el analisis de datos formaliza la evidencia expe- 
rimental con base en la prueba de hipotesis, es muy importante la declaration o el 
establecimiento formal de la hipotesis. 


Hipotesis nula e hipotesis alternativa 

La estructura de la prueba de hipotesis se formulara usando el termino hipotesis 
nula, el cual se refiere a cualquier hipotesis que deseamos probar y se denota con 
Hq. El rechazo de Ho conduce a la aceptacion de una hipotesis alternativa, que 
se denota con H\. La comprension de las diferentes funciones que desempehan la 
hipotesis nula (Hq) y la hipotesis alternativa (Hi) es fundamental para entender 
los principios de la prueba de hipotesis. La hipotesis alternativa Hi, por lo general, 
representa la pregunta que debe responderse, la teoria que debe probarse y, por ello, 
su especificacion es muy importante. La hipotesis nula Hq anula o se opone a Hi y 
a menudo es el complemento logico para Hi. Conforme el lector vaya aprendiendo 
mas sobre la prueba de hipotesis, deberfa notar que el analista llega a una de las 
siguientes dos conclusiones: 
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rechace Hq: a favor de Hi debido a evidencia suficiente en los datos. 
no rechace Ho : debido a evidencia insuficiente en los datos. 

Observe que las conclusiones no implican una “aceptacion” formal y literal de Hq. El 
enunciado de Hq a menudo representa el “status quo” contrario a una nueva idea, 
conjetura, etcetera, enunciada en Hp en tanto que no rechazar Ho representa la 
conclusion adecuada. En nuestro ejemplo binomial, la cuestion practica poclria surgir 
a partir de un interes en que la probabilidad historica de defectuosos de 0.10 ya no 
es real. De hecho, la conjetura podria ser que excede 0.10. De manera que enuncia- 
riamos 


H 0 :p= 0.10, 
Hp p > 0.10. 


Ahora, 12 articulos defectuosos de cada 100 no rechazan p = 0.10, por lo que la 
conclusion es “no rechace Ho" . Sin embargo, si los datos producen 20 articulos defec- 
tuosos de cada 100, la conclusion seria “rechace H 0 " a favor de Hp p > 0.10. 

Aunque las aplicaciones de la prueba de hipotesis son bastante abundantes en 
trabajos cientificos y de ingenieria, quizas el mejor ejemplo para un principiante 
sea la dificultad que se encuentra en el veredicto de un jurado. Las hipotesis nula y 
alternativa son 


Hq: el acusado es inocente, 

Hp. el acusado es culpable. 

La acusacion proviene de una sospecha de culpabilidad. La hipotesis Hq (status 
quo) se establece en oposicion a Hi y se mantiene a menos que se apoye Hi con 
evidencia “mas alia de una duda razonable” . Sin embargo, en este caso “no rechace 
Hq" no implica inocencia, sino tan solo que la evidencia fue insuficiente para lograr 
una condena. De manera que el jurado no necesariamente acepta Ho sino que no 
rechaza Hq. 


10.2 Prueba de una hipotesis estadistica 

Para ilustrar los conceptos que se utilizan al probar una hipotesis estadistica acerca 
de una poblacion, considere el siguiente ejemplo. Se sabe que cierto tipo de vacuna 
contra el resfriado tan solo es efectiva en 25% despues de un periodo de dos anos. 
Para determinar si una vacuna nueva, y algo mas cara, es superior al dar protec- 
cion contra el mismo virus durante un periodo mas largo, suponga que se elige a 20 
personas al azar y se inoculan. En un estudio real de este tipo, los participantes que 
reciben la nueva vacuna pueden llegar a varios miles. El numero 20 se utiliza aqui 
solo para demostrar los pasos basicos para realizar una prueba estadistica. Si mas de 
8 de quienes reciben la nueva vacuna superan el lapso de 2 anos sin contraer el virus, 
la nueva vacuna se considerara superior a la que se usa en la actualidad. El requisito 
de que el numero exceda de 8 es algo arbitrario, aunque parece razonable, ya que 
representa una ganancia modesta sobre las 5 personas que se esperaria que recibie- 
ran protection si las 20 personas se inocularon con la vacuna ya en uso. En esencia 
probamos la hipotesis nula de que — despues de un periodo de 2 anos — la nueva 
vacuna es igualmente eficaz que la que, por lo general, se utiliza ahora. La hipotesis 
alternativa es que la nueva vacuna es de hecho superior, lo cual es equivalente a 
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probar la hipotesis de que el parametro binomial para la probabilidad de un exito 
sobre una prueba dada es p = 1/4 contra la alternativa de que p = 1/4. Esto, por 
lo general, se escribe como: 

H 0 : p = 0.25, 

Hr- p > 0.25. 


El estadfstico de prueba 

El estadfstico de prueba sobre el cual se basa nuestra decision es X, el numero 
de individuos en nuestro grupo de prueba que reciben protection de la nueva vacu- 
na durante un periodo de al menos 2 anos. Los valores posibles de X, de 0 a 20, se 
dividen en dos grupos: los numeros menores que o iguales a 8 y aquellos may ores 
que 8. Todos los posibles valores mayores que 8 constituyen la region crftica. El 
ultimo numero que observamos al pasar a la region crftica se llama valor crftico. 
En nuestro caso el valor crftico es el numero 8. Por lo tanto, si x > 8, rechazamos 
Ho a favor de la hipotesis alternativa Hi. Si x < 8, no rechazamos Hq. Este criterio 
de aceptacion se ilustra en la figura 10.1. 


No rechace H 0 

Rechace H 0 

(p = 0.25) 

(p > 0.25) 


0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 


Figura 10.1: Criterio de decision para probar p = 0.25 contra p > 0.25. 


El procedimiento de decision recien descrito podrfa conducir a cualquiera de dos 
conclusiones erroneas. Por ejemplo, la nueva vacuna puede no ser mejor que la que 
se usa actualmente y, para este grupo especffico de individuos seleccionado de forma 
aleatoria, mas de 8 pasan el periodo de 2 anos sin contraer el virus. Cometerfamos 
un error al rechazar Hq a favor de H\ cuando, de hecho, Ho es verdadera. Tal error 
se llama error tipo I. 


Definition 10.2: 


El rechazo de la hipotesis nula cuando es verdadera se llama error tipo I. 


Una segunda clase de error se comete si 8 o menos del grupo superan exitosa- 
mente el periodo de 2 anos y concluimos que la nueva vacuna no es mejor cuando en 
realidad sf lo es. En este caso aceptamos Hq cuando de hecho es falsa. Este se llama 

error tipo II. 


Definition 10.3: 


No rechazar la hipotesis nula cuando es falsa se llama error tipo II. 


Al probar cualquier hipotesis estadfstica, hay cuatro situaciones posibles que 
determinan si nuestra decision es correcta o erronea. Estas cuatro situaciones se re- 
sumen en la tabla 10.1. 

La probabilidad de cometer un error tipo I, tambien llamada nivel de signi- 
ficancia, se denota con la letra griega a. En nuestro caso, un error tipo I ocurrira 
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Tabla 10.1: Situaciones posibles al probar una hipotesis estadistica 



Hq es verdadera 

Hq es falsa 

No rechace Hq 
Rechace Hq 

Decision correcta 
Error tipo I 

Error tipo II 

Decision correcta 


cuando mas de ocho individuos superen el periodo de 2 ahos sin contraer el virus, al 
usar la nueva vacuna que en realidad equivale a la que esta en uso. Por lo tanto, si X 
es el numero de individuos que permanecen libres del virus por al menos dos ahos, 

a — P(e rror tipo I) = P > 8 cuando p = b 20, 

= 1 “ b i x ' 2°’ l) = 1 - 0.9591 = 0.0409. 

Decimos que la hipotesis nula, p = 1/4, se prueba al nivel de significancia a = 
0.0409. Algunas veces el nivel de significancia se llama tamaho de la prueba. Una 
region critica de tamano 0.0409 es muy pequena y, por lo tanto, es poco probable 
que se cometa un error de tipo I. En consecuencia, seria poco probable que mas de 8 
individuos permanecieran inmunes a un virus por un periodo de dos ahos mediante 
el uso de una vacuna nueva, que en esencia es equivalente a la que ahora existe en el 
mere ado. 


La probabilidad de un error tipo II 

La probabilidad de cometer un error tipo II, que se denota con (3, es imposible de 
calcular a menos que tengamos una hipotesis alternativa especffica. Si probamos la 
hipotesis nula p = 1/4 contra la hipotesis alternativa p = 1/2, entonces seremos 
capaces de calcular la probabilidad de no rechazar Hq cuando es falsa. Simplemente 
encontramos la probabilidad de obtener 8 o menos en el grupo que supera el periodo 
de 2 ahos cuando p = 1/2. En este caso, 


(3 = P(error tipo II) = P ^X < 8 cuando p = — 

= 20, =0.2517. 

£ = 0 ' ' 


Esta es una probabilidad mas bien alta, que indica un procedimiento de prueba don- 
de es muy probable que rechacemos la nueva vacuna cuando, de hecho, es superior 
a la que esta en uso. Idealmente, preferirfamos utilizar un procedimiento de prueba 
en el cual sean pequenas las probabilidades de los errores tipo I y tipo II. 

Es posible que el director del programa de prueba este dispuesto a cometer un 
error tipo II, si la vacuna mas cara no es significativamente superior. De hecho, la 
unica ocasion en la que desea estar prevenido contra un error tipo II es cuando el 
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valor real de p es al menos 0.7. Si p = 0.7, este procedimiento de prueba da 

(3 = P{e rror tipo II) = P(X < 8 cuando p = 0.7) 

8 

= ^6(x;20,0.7) = 0.0051. 

:r=0 


Con una probabilidad tan pequena de cometer un error tipo II, es bastante impro- 
bable que se rechace la nueva vacuna cuando tiene una efectividad de 70% despues 
de un periodo de 2 anos. Conforme la hipotesis alternativa se aproxima a la unidad, 
el valor de f3 tiende a cero. 


El papel de a, /3 y el tamano de la muestra 

Supongamos que el director del programa de prueba no esta dispuesto a cometer un 
error tipo II cuando la hipotesis alternativa p = 1/2 es verdadera, aun cuando se 
encuentre que la probabilidad de tal error es (3 = 0.2517. Una reduccion de (3 siem- 
pre es posible al aumentar el tamano de la region crltica. Por ejemplo, considere que 
sucede a los valores de a y f3 cuando cambiamos nuestro valor cri'tico a 7, de manera 
que todos los valores mayores que 7 caigan en la region critica, y aquellos menores que 
o iguales a 7 caigan en la region de no rechazo. As!, al probar p = 1/4 contra la 
hipotesis alternativa p = 1/2, encontramos que 

a = fx;20,^) = 1-^6 (x; 20, M = 1 - 0.8982 = 0.1018, 

y 

P=^2 b fx; 20, = 0.1316. 

x=0 ' ' 

Al adoptar un nuevo procedimiento de decision, reducimos la probabilidad de come- 
ter un error tipo II a costa de aumentar la probabilidad de cometer un error tipo I. 
Para un tamano muestral hjo, una disminucion en la probabilidad de un error, por 
lo general, tendra como resultado un incremento en la probabilidad del otro error. 
Por fortuna, la probabilidad de cometer ambos tipos de errores se puede 
reducir al aumentar el tamano de la muestra. Considere el mismo problema 
usando una muestra aleatoria de 100 individuos. Si mas de 36 del grupo superan el 
periodo de 2 ahos, rechazamos la hipotesis nula p = 1/4 y aceptamos la hipotesis al- 
ternativa p > 1/4. El valor cri'tico ahora es 36. Todos los valores posibles por arriba 
de 36 constituyen la region critica y todos los valores posibles menores que o iguales 
a 36 caen en la region de aceptacion. 

Para determinar la probabilidad de cometer un error tipo I, utilizaremos la aproxi- 
macion de la curva normal con 

p = np = (100) = 25, y a = ^/npq = (100)(l/4)(3/4) = 4.33. 
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Con referenda a la figura 10.2, necesitamos el area bajo la curva normal a la deredra 
de x = 36.5. El valor z correspondiente es 


x = 


36.5-25 

4.33 


2 . 66 . 


De la tabla A. 3 encontramos que 


1 

1 

1 

1 

1 

1 

1 

cr = 4.33 


1 

1 

1 

1 

1 

1 


a 

p=25 


36.5 


Figura 10.2: Probabilidad de un error tipo I. 


a = P (Error tipo I) = P ^ X > 36 cuando p = fa P(Z > 2.66) 
= 1 - P{Z < 2.66) = 1 - 0.9961 = 0.0039. 


Si Hq es falsa y el verdadero valor de Hi es p = 1/2, determinamos la probabilidad 
de un error tipo II usando la aproximacion a la curva normal con 


p = np = (100)(l/2) = 50 y cr = y/ npq = \J (100) (1/2) (1/2) = 5. 

La probabilidad de caer en la region de aceptacion cuando Hq es verdadera esta dada 
por el area de la region sombreada a la izquierda de x = 36.5 en la figura 10.3. El 
valor 2 que corresponde a x = 36.5 es 


Por lo tanto, 


2 = 


36.5 - 50 
5 


-2.7. 


/ 3 = P( Error tipo II) = P < 36 cuando p = ^ « P(Z < —2.7) = 0.0035. 

Evidentemente, los errores tipo I y tipo II rara vez ocurren si el experimento consiste 
en 100 individuos. 

La ilustracion anterior clestaca la estrategia del cientffico en la prueba de hipo- 
tesis. Despues de que se establecen las hipotesis nula y alternativa, es importante 
considerar la sensibilidad del procedimiento de prueba. Con esto queremos decir 
que deberia haber una determinacion, para una a hja, de un valor razonable para 
la probabilidad de aceptar de manera erronea Hq (es decir, el valor de 0) cuando la 
situacion real representa alguna desviacion importante de Hq. Por lo general, se 
puede determinar el valor del tamano de la muestra para el que hay un equilibrio 
razonable entre a y el valor de (3 que se calcula de esta manera. El problema de la 
vacuna es un ejemplo. 
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H 0 

/T\ 

l 

l 

1 


i 

1 



1 

l 

Hi 

1 

i 



l 

l 

l 

l 

l 

l 

l 

l 

l 

i 

cr = 4.33 

i 

i 

i 

i 

i 

i 

i 

i 

i 

i 

C 7=5 


25 

36.5 

50 



Figura 10.3: Probabilidad de un error tipo II. 


Ilustracion con una variable aleatoria continua 

Los conceptos que aqui se discuten para una poblacion discreta se pueden aplicar 
igualmente bien a variables aleatorias continuas. Considere la hipotesis nula de que 
el peso promedio de estudiantes hombres en cierta universidad es 68 kilogramos, 
contra la hipotesis alternativa de que es diferente de 68. Es decir, cleseamos probar 

H 0 : p = 68, 

Hp. p ± 68. 

La hipotesis alternativa nos permite la posibilidad de que p < 68 o p > 68. 

Una media muestral que caiga cerca del valor hipotetico de 68 se consideraria 
como evidencia en favor de Hq. Por otro lado, una media muestral considerablemen- 
te menor que o mayor que 68 serfa una evidencia de inconsistencia de Hq y, por lo 
tanto, favoreceria a H ±. La media muestral es el estadistico de prueba en este caso. 
Una region critica para el estadistico de prueba se puede elegir de manera arbitraria 
como los dos intervalos x < 67 y x > 69. La region de aceptacion sera entonces el 
intervalo 67 < x < 69. Este criterio de decision se ilustra en la figura 10.4. Utilicemos 


Rechace H 0 

No rechace H 0 

Rechace H 0 

(p i= 68) 

{p = 68) 

(p ¥= 68) 


67 68 69 


x 


Figura 10.4: Region critica (sombreada). 


ahora el criterio de decision de la figura 10.4 para calcular las probabilidades de co- 
meter errores tipo I y tipo II, cuando se prueba la hipotesis nula p = 68 kilogramos 
contra la alternativa p =f= 68 kilogramos. 

Suponga que la desviacion estandar de la poblacion de pesos es cr = 3.6. Para 
muestras grandes podemos sustituir s por cr si no se dispone de ninguna otra esti- 
mation de cr. Nuestro estadistico de decision, que se basa en una muestra aleatoria 
de tamano n = 36, sera X, el estimador mas eficaz de p. Del teorema del lirnite 
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central, sabemos que la distribution muestral de X es aproximadamente normal con 
desviacion estandar a x = cr/i/n = 3.6/6 = 0.6. 

La probabilidad de cometer un error tipo I, o el nivel de significancia de nuestra 
prueba, es igual a la suma de las areas sombreadas en cada cola de la distribution 
en la figura 10.5. Por lo tanto, 

a = P(X < 67 cuando p = 68) + P(X > 69 cuando p = 68). 


a/2 


al 2 


67 p = 68 69 

Figura 10.5: Region critica para probar p = 68 contra p =/ 68. 


Los valores z correspondientes a x\ = 67 y X 2 = 69 cuando Hq es vercladera son 


Zl 


67-68 

0.6 


-1.67 


y 


69 - 68 
0.6 


1.67. 


Por lo tanto, 


a = P(Z < -1.67) + P(Z > 1.67) = 2 P(Z < -1.67) = 0.0950. 


De esta manera, 9.5% de todas las muestras de tamano 36 nos conducirfan a re- 
chazar p = 68 kilogramos cuando, de hecho, esta es verdadera. Para reducir a, 
tenemos que elegir entre aumentar el tamano de la muestra o ampliar la region de 
aceptacion. Suponga que aumentamos el tamano de la muestra a n = 64. Entonces 
cr^ = 3.6/8 = 0.45. Entonces, 


Zl 


67-68 

0.45 


- 2.22 


y Z2 


69 - 68 
0.45 


2 . 22 . 


De aqut, 


a = P(Z < -2.22) + P(Z > 2.22) = 2 P(Z < -2.22) = 0.0264. 

La reduccion en a no es suficiente por si misma para garantizar un buen proce- 
dimiento de prueba. Debemos evaluar (3 para varias hipotesis alternativas. Si es 
importante rechazar Hq cuando la media real sea algun valor p > 70 o p < 66, 
entonces, la probabilidad de cometer un error tipo II se deberia calcular y exami- 
nar para las alternativas p = 66 y p = 70. Debido a la simetria, solo es necesario 
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considerar la probabilidad de no rechazar la hipotesis nula p = 68 cuando la alter- 
nativa p = 70 es verdadera. Resultara un error tipo II cuando la media muestral x 
caiga entre 67 y 69 cuando Hi sea verdadera. Por lo tanto, con referencia a la figura 
10.6, encontramos que 

P = P ( 67 < X < 69 cuando p = 70). 


H n 


H, 


67 


68 


69 


70 


71 


Figura 10.6: Probabilidad del error tipo II para probar p = 68 contra p = 70. 
Los valores z que corresponden a x\ = 67 y X 2 = 69 cuando Hi es verdadera son 


Zl 


67-70 

0.45 


-6.67 


y ^2 


69 - 70 
0.45 


- 2 . 22 . 


Por lo tanto, 

(3 = P(— 6.67 < Z < -2.22) = P(Z < -2.22) - P(Z < -6.67) 
= 0.0132 - 0.0000 = 0.0132. 


Si el valor real de p es la alternativa p = 66, el valor de f3 nuevamente sera 0.0132. 
Para todos los valores posibles de p < 66 o p > 70, el valor de /3 sera incluso mas 
pequeho cuando n = 64 y, en consecuencia, habrfa poca oportunidad de aceptar Hq 
cuando sea falsa. 

La probabilidad de cometer un error tipo II aumenta rapidamente cuando el 
valor real de p se aproxima al valor hipotetico, pero no es igual a este. Desde luego, 
por lo general, esta es la situacion en que no nos importa cometer un error tipo II. 
Por ejemplo, si la hipotesis alternativa p = 68.5 es verdadera, podemos cometer un 
error tipo II al concluir que la respuesta verdadera es p = 68. La probabilidad de 
cometer tal error sera alta cuando n = 64. Con referencia a la figura 10.7, tenemos 

/ 3 = P{ 67 < X < 69 cuando p = 68.5). 

Los valores 2 correspondientes a xi = 67 y X 2 = 69 cuando p = 68.5 son 
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H n 


Hi 


67 68 68.5 69 

Figura 10.7: Error tipo II para probar p = 68 contra p = 68.5. 


67- 68.5 0 00 69 - 68.5 llt 

zi = — — = -3.33 y 2:2 = — ~ ~ — = 1.11. 


0.45 


0.45 


Por lo tanto, 


(3 = P(- 3.33 < Z < 1.11) = P(Z < 1.11) - P(Z < -3.33) 

= 0.8665 — 0.0004 = 0.8661. 


Los ejemplos anteriores ilustran las siguientes propiedades importantes: 


Propiedades 
importantes 
de una prueba de 
hipotesis 


1. Los errores tipo I y tipo II estan relacionados. Por lo general, una disminucion 
en la probabilidad de uno tiene como resultado un incremento en la probabili- 
dad del otro. 

2. El tarnano de la region critica y, por lo tanto, la probabilidad de cometer un 
error tipo I, siempre se puede reducir al ajustar el(los) valor(es) critico(s). 

3. Un aumento en el tarnano muestral n reducira a a y f3 de forma simultanea. 

4. Si la hipotesis nula es falsa, /3 es un maximo cuando el valor real de un parame- 
tro se aproxima al valor hipotetico. Cuanto mas grande sea la distancia entre 
el valor real y el valor hipotetico, (3 sera menor. 


Un concepto muy importante que se relaciona con las probabiliclades del error es 
la nocion de potencia de una prueba. 


Definicion 10.4: 


La potencia de una prueba es la probabilidad de rechazar Hq dado que una alter- 
nativa especifica es verdadera. 


La potencia de una prueba se puede calcular como 1 — (3. A menudo diferen- 
tes tipos de pruebas se comparan al contrastar propiedades de potencia. 

Considere la ilustracion anterior en la que probamos Hq\ p = 68 y Hp p 68. Como 
antes, suponga que nos interesamos en evaluar la sensibilidad de la prueba. La prue- 
ba esta determinada por la regia de que aceptamos H 0 si 67 < x < 69. Buscamos la 
capacidad de la prueba para rechazar Hq de manera adecuada cuando en realidad 
p = 68.5. Vimos que la probabilidad de un error tipo II esta dada por (3 = 0.8661. 
De esta manera, la potencia de la prueba es 1 — 0.8661 = 0.1339. En cierto sentido, 
la potencia es una medida mas sucinta de cuan sensible es la prueba para “detectar 
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diferencias” entre una media de 68 y 68.5. En este caso, si p es realmente 68.5, la 
prueba como se describe rechazara de forma adecuada Hq solo 13.39% de las veces. 
Como resultado, la prueba no seria buena si es importante que el analista tenga 
una oportunidad razonable de distinguir realmente entre una media de 68.0 (que 
especifica Hf) y una media de 68.5. De lo anterior, resulta claro que para producir 
una potencia deseable (digamos, mayor que 0.8), se debe aumentar a o aumentar el 
tamano de la muestra. 

En las secciones anteriores de este capitulo, la mayoria del texto sobre prue- 
ba de hipotesis gira alrededor de los principios y las definiciones. En las secciones 
que siguen seremos mas especificos y clasificaremos las hipotesis en categorias. Tam- 
bien estudiaremos pruebas de hipotesis sobre varios parametros de interes. Comen- 
zamos estableciendo la distincion entre hipotesis unilaterales y bilaterales. 


10.3 Pruebas de una y dos colas 

Una prueba de cualquier hipotesis estadistica, donde la alternativa es unilateral, 
como 


H 0 : 9 = 0 O , 

Hr. 9 > 0 O , 

o quiz as 

H 0 : 0 = 0o, 

Hr 0 < 0o, 

se denomina prueba de una sola cola. En la section 10.2 se hizo referencia al 
estadistico de prueba para una hipotesis. Por lo general, la region critica para la 
hipotesis alternativa 0 > 0o yace en la cola derecha de la distribution del estadistico 
de prueba; en tanto que la region critica para la hipotesis alternativa 0 < 0o yace por 
completo en la cola izquierda. En cierto sentido, el simbolo de clesigualdad apunta 
en la direction donde se encuentra la region critica. En el experimento de la vacu- 
na de la section 10.2 se utiliza una prueba de una sola cola para probar la hipotesis 
p = 1/4, contra la alternativa unilateral p > 1/4 para la distribution binomial. La 
region critica de una sola cola, por lo general, es bastante evidente. Para una me- 
jor comprension, el lector deberia visualizar el comportamiento del estadistico de 
prueba y observar la notoria serial que produciria evidencia que apoye la hipotesis 
alternativa. 

Una prueba de cualquier hipotesis alternativa donde la alternativa sea bilateral, 
como 


Ho: 0 = 0o. 

Hr 0 0o, 

se llama prueba de dos colas, ya que la region critica se divide en dos partes, que 
a menudo tienen probabilidades iguales que se colocan en cada cola de la distribu- 
tion del estadistico de prueba. La hipotesis alternativa 0 =f= 0o establece que ya sea 
que 0 < 0o o que 0 > 0o- Una prueba de dos colas se utilizo para probar la hipotesis 
nula p = 68 kilogramos, contra la alternativa bilateral p =/ 68 kilogramos, para la 
poblacion continua de los pesos de estudiantes en la section 10.2. 
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/.Como se eligen las hipotesis nula y alternativa? 

La hipotesis nula, Hq, con frecuencia se establecera usando el signo de igualdad. De 
esta manera se observa como se controla la probabilidad de cometer un error tipo I. 
No obstante, hay situaciones en que la aplicacion sugiere que “no rechazar Hq" 
implica que el parametro 6 podria ser cualquier valor definido por el complemento 
natural de la hipotesis alternativa. Por ejemplo, en el caso de la vacuna, donde la 
hipotesis alternativa es Hy p > 1/4 , es bastante posible que un no rechazo de H 0 no 
pueda descartar un valor de p menor que 1/4. Claramente, en el caso de las pruebas 
de una cola, la declaration de la alternativa es la consideration mas importante. 

Si se establece una prueba de una cola o de dos colas, dependera de la conclusion 
que se obtenga si se rechaza Hq. La position de la region critica puede determinarse 
solo clespues de que se establece Hy Por ejemplo, al probar una medicina nueva, se 
establece la hipotesis de que no es mejor que las medicinas similares que actualmente 
hay en el mercado, y se prueba esta contra la hipotesis alternativa de que la medi- 
cina nueva es superior. Tal hipotesis alternativa tendra como resultado una prueba 
de una sola cola con la region critica en la cola derecha. No obstante, si deseamos 
comparar una nueva tecnica de ensenanza con el procedimiento conventional del 
salon de clases, la hipotesis alternativa debe permitir que la nueva aproximacion sea 
inferior o superior al procedimiento conventional. Por lo tanto, la prueba sera de 
dos colas con la region critica dividida en partes iguales, de manera que caiga en los 
extremos de las colas izquierda y derecha de la distribution de nuestro estadistico. 


Ejemplo 10.1:1 Un fabricante de cierta marca de cereal de arroz afirma que el contenido promedio 
de grasa saturada no excede de 1.5 gramos. Establezca las hipotesis nula y alterna- 
tiva a utilizar para probar esta afirmacion y determinar clonde se localiza la region 
critica. 

Solucion: La afirmacion del fabricante se deberia rechazar solo si p es mayor que 1.5 miligra- 
mos y no se deberia rechazar si /i es menor o igual que 1.5 miligramos. Entonces, 
probamos 

H 0 : p = 1.5, 

Hy. p > 1.5, 

de manera que el no rechazo de Hq no descarta valores que 1.5 miligramos. Como 
tenemos una prueba de una cola, el simbolo mayor que indica que la region critica 
yace por completo en la cola derecha de la distribution de nuestro estadistico de 
prueba X. 


Ejemplo 10.2:1 Un agente de bienes raices afirma que 60% de todas las viviendas privadas que se 
construyen actualmente son casas con tres dormitorios. Para probar esta afirmacion, 
se inspecciona una muestra grande de viviendas nuevas. La proportion de tales casas 
con tres dormitorios se registra y se utiliza como estadistico de prueba. Establezca 
las hipotesis nula y alternativa a utilizarse en esta prueba y determine la position de 
la region critica. 

Solucion: Si el estadistico de prueba fuera considerablemente mayor o menor que p = 0.6, re- 
chazariamos la afirmacion del agente, por lo que deberiamos establecer la hipotesis 

H 0 ■ P = 0.6, 

Hy. p ± 0.6. 

La hipotesis alternativa implica una prueba de dos colas con la region critica dividida 
por igual en ambas colas de la distribution de P, nuestro estadistico de prueba. 
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10.4 Uso de valores P para la toma de decisiones 
en la prueba de hipotesis 

A1 probar hipotesis en que el estadistico de prueba es discreto, la region critica 
se puede elegir de manera arbitraria y determinar su tarnano. Si a es demasiado 
grande, se puede reducir al realizar un ajuste en el valor crltico. Quiza sea necesario 
aumentar el tamano de la muestra para compensar la disminucion que ocurre de 
manera automatica en la potencia de la prueba. 

Por generaciones enteras de analisis estadistico, se ha vuelto costumbre elegir 
una a de 0.05 o 0.01 y, en consecuencia, seleccionar la region critica. Entonces, desde 
luego, el rechazo o el no rechazo estrictos de Hq dependera de esa region critica. Por 
ejemplo, si la prueba es de dos colas y a se fija al nivel de significancia de 0.05 y el 
estadistico de prueba implica, digamos, la distribution normal estandar, entonces se 
observa un valor z de los datos y la region critica es 

z > 1.96 o z < -1.96, 

donde el valor 1.96 se encuentra como Z 0.025 en la tabla A. 3. Un valor de z en la 
region critica sugiere el planteamiento: “El valor del estadistico de prueba es signi- 
ficative.” Podemos traducir esto al lenguaje del usuario. Por ejemplo, si la hipotesis 
esta clada por 


H 0 : p = 10, 

Hp p ^ 10, 

se puede decir: “La media difiere de manera significativa del valor 10.” 


Preseleccion del nivel de significancia 

Esta preseleccion de un nivel de significancia a tiene sus ralces en la filosofla de que 
se cleberla controlar el riesgo maximo de cometer un error tipo I. Sin embargo, este 
enfoque no explica los valores del estadistico de prueba que estan “cercanos” a la 
region critica. Suponga que, por ejemplo, en la ilustracion con Hy. p = 10, contra 
Hr p 10, se observa un valor z = 1.87. Estrictamente hablando, con a = 0.05 el 
valor no es significativo; pero el riesgo de cometer un error tipo I si se rechaza Ho en 
este caso diflcilmente se podrla considerar severo. De hecho, en un escenario de dos 
colas el riesgo se cuantifica como 

P= 2 P{Z > 1.87 cuando p = 10) = 2(0.0307) = 0.0614. 

Como resultado, 0.0614 es la probabilidad de obtener un valor z tan grande o mayor 
(en magnitud) que 1.87 cuando, de hecho, p = 10. Aunque esta evidencia contra 
Ho no es tan fuerte como la que resultarla de un rechazo en un nivel a = 0.05, se 
trata de information importante para el usuario. De hecho, el uso continuo de a = 
0.05 o 0.01 tan solo es un resultado de lo que los estandares han establecido por ge- 
neraciones. En la estadfstica aplicada, los usuarios han adoptado de forma 
extensa la aproximacion del valor P. La aproximacion se diseha para dar al 
usuario una alternativa (en terminos de una probabilidad) a la simple conclusion de 
“rechazo” o “no rechazo”. El calculo del valor Ptambien da al usuario information 
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importante cuando el valor z cae por completo dentro de la region critica ordinaria. 
Por ejemplo, si z es 2.73, resulta informativo para el usuario observar que 

P= 2(0.0032) = 0.0064 

y de esta forma el valor z es significativo a un nivel considerablemente menor que 
0.05. Es importante saber que bajo la condition de Ho, un valor de 2 = 2.73 es un 
evento demasiado raro. A saber, un valor al menos tan grande en magnitud solo 
ocurrirfa 64 veces en 10,000 experimentos. 


Demostracion grafica de un valor P 

Una manera muy simple de explicar graficamente un valor P es considerar dos 
muestras distintas. Suponga que se consideran dos materiales para cubrir un tipo es- 
pecifico de metal, con la finalidad de prevenir la corrosion. Se obtienen especfmenes 
y se cubre un grupo con el material 1 y otro grupo con el material 2. Los tamanos 
muestrales son m = ri 2 = 10 para cada muestra, y la corrosion se midio en por- 
centaje del area superficial afectada. La hipotesis es que las muestras provienen de 
distribuciones comunes con media p = 10. Supongamos que la varianza poblacional 
es 1.0. Entonces, probamos que 


Ho' pi = P2 — 10. 

Representemos con la figura 10.8 una grafica de puntos de los datos. Los datos se 
colocan en 


p = 10 

Figura 10.8: Datos probablemente generados de poblaciones que tienen dos medias 
diferentes. 

la distribution que establece la hipotesis nula. Supongamos que los datos “x” se 
refieren al material 1; y los datos “o”, al material 2. Parece claro ahora que los 
datos en verdad rechazan la hipotesis nula. Pero, ^como se podrfa resumir esto en 
un numero? El valor P se puede ver simplemente como la probabilidad de 
obtener este conjunto de datos dado que las muestras provienen de la 
misma distribucion. Es claro que esta probabilidad es bastante pequena, digamos, 
j0. 00000001! De esta manera, el pequeno valor P evidentemente rechaza Hq, y la 
conclusion es que las medias poblacionales son significativamente diferentes. 

La aproximacion del valor P como ayuda en la toma de decisiones es bastan- 
te natural, ya que casi todos los paquetes computacionales que ofrecen el calculo de 
pruebas de hipotesis dan valores P junto con valores del estadfstico de prueba ade- 
cuado. La siguiente es una definition formal de un valor P. 
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Definition 10.5: 


Un valor P es el nivel (de significancia) mas bajo donde es significativo el valor 
observado del estadfstico de prueba. 


^En que difiere el uso de valores P de la prueba de hipotesis clasica? 

En este momento resulta tentador resumir los procedimentos que se asocian con la 
prueba de, digamos, H 0 : 0 = 9 0 . No obstante, el estudiante que es novato en esta 
area debera tener en cuenta que hay diferencias de enfoque y filosofi'a entre el enfo- 
que clasico de a fija que tiene su punto mas importante en la conclusion de “rechace 
i?o” o “no rechace Hq” y el enfoque del valor P. En este ultimo se determina una 
a no fija y las conclusiones se obtienen con base en el tamaho del valor P segun 
la apreciacion subjetiva del ingeniero o del cientffico. Sin embargo, mientras que 
el moderno software computacional produce valores P, es importante que el lector 
comprenda ambos enfoques para apreciar la totalidad de los conceptos. Por lo tanto, 
ofrecemos una breve lista con los pasos tanto para el enfoque clasico como para el 
del valor P. 


Aproximacion 
a la prueba de 
hipotesis con 
probabilidad fija 
del error tipo I 


1. Establezca las hipotesis nula y alternativa. 

2. Elija un nivel de significancia a hjo. 

3. Seleccione un estadfstico de prueba adecuado y establezca la region crftica con 
base en a. 

4. A partir del estadfstico de prueba calculado, rechace H 0 si el estadfstico de 
prueba esta en la region crftica. De otra manera, no rechace Hq. 

5. Obtenga conclusiones cientfficas y de ingenierfa. 


Prueba de 
significancia 
(aproximacion al 
valor P) 


1. Establezca las hipotesis nula y alternativa. 

2. Elija un estadfstico de prueba adecuado. 

3. Calcule el valor P con base en los valores calculados del estadfstico de prueba. 

4. Utilice el juicio con base en el valor P y reconozca el sistema cientffico. 


En las secciones de este capitulo y en los capftulos siguientes muchos ejemplos y 
ejercicios destacaran el enfoque del valor P para obtener conclusiones cientfficas. 


Ej ercicios 


10.1 Suponga que un alergologo desea probar la hi- 
potesis de que al menos 30% del publico es alergico a 
algunos productos de queso. Explique como el alergolo- 
go podrfa cometer 

a) un error tipo I; 

b) un error tipo II. 

10.2 Una sociologa se interesa en la eficacia de un 
curso de entrenamiento diseiiado para lograr que mas 
conductores utilicen los cinturones de seguridad en los 
automoviles. 

a) iQue hipotesis prueba ella si comete un error tipo I 


al concluir de manera erronea que el curso de entre- 
namiento no es eficaz? 

b ) ^Que hipotesis prueba ella si comete un error tipo II 
al concluir de forma erronea que el curso de entre- 
namiento es eficaz? 

10.3 A una empresa manufacturera grande se le acu- 

sa de discrimination en sus practicas de contratacion. 

а ) i,Que hipotesis se prueba si un jurado comete un 
error tipo I al encontrar culpable a dicha empresa? 

б) ^Que hipotesis se prueba si un jurado comete un 
error tipo II al encontrar culpable a dicha empresa? 
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10.4 Se estima que la proportion de adultos que viven 
en una pequena ciudad que son graduados universita- 
rios es p = 0.6. Para probar esta liipotesis, se selecciona 
una muestra aleatoria de 15 adultos. Si el numero de 
graduados en nuestra muestra es cualquier numero 
de 6 a 12, aceptaremos la hipotesis nula de que p = 0.6; 
en caso contrario, concluiremos que p 0.6. 

a) Evalue a con la suposicion de que p = 0.6. Utilice la 
distribution binomial. 

b) Evalue (3 para las alternativas p = 0.5 y p = 0.7. 

c) ^,Es este un buen procedimiento de prueba? 

10.5 Repita el ejercicio 10.4 cuando se seleccionan 
200 adultos y la region de aceptacion se define como 
110 < x < 130, donde x es el numero de graduados uni- 
versitarios en nuestra muestra. Utilice la aproximacion 
normal. 

10.6 Un fabricante de telas considera que la propor- 
tion de pedidos de materia prima que llegan tarde es 
p = 0.6. Si una muestra aleatoria de 10 pedidos muestra 
que 3 o menos llegan tarde, la liipotesis de que p = 0.6 
se deberfa rechazar a favor de la alternativa p < 0.6. 
Utilice la distribution binomial. 

a) Encuentre la probabilidad de cometer un error tipo I 
si la proportion verdadera es p = 0.6. 

b) Encuentre la probabilidad de cometer un error tipo 
II para las alternativas p = 0.3, p = 0.4 y p = 0.5. 

10.7 Repita el ejercicio 10.6 cuando se seleccionan 50 
pedidos, y se define la region crftica como x < 24, don- 
de x es el numero de pedidos en nuestra muestra que 
llegan tarde. Utilice la aproximacion normal. 

10.8 Una tintoreria afirma que un nuevo removedor 
de manchas quitara mas de 70% de las manchas en las 
que se aplique. Para verificar esta afirmacion, el remo- 
vedor de manchas se utilizara sobre 12 manchas que 
se eligieron al azar. Si menos de 11 de las manchas se 
eliminan, no rechazaremos la hipotesis nula de que p = 
0.7; en cualquier otro caso, concluiremos que p = 0.7. 

а) Evalue a, suponiendo que p = 0.7. 

б) Evalue f3 para la alternativa p = 0.9. 

10.9 Repita el ejercicio 10.8 cuando se tratan 100 
manchas y la region crftica se define como x > 82, don- 
de x es el numero de manchas que se eliminan. 

10.10 En la publication Relief from Arthritis de 
Thorsons Publishers, Ltd., John E. Croft afirma que 
mas de 40% de los individuos que sufren de artritis 
osea obtienen un alivio mensurable de un ingrediente 
producido por una especie particular de mejillon que se 
encuentra en la costa de Nueva Zelanda. Para demos- 
trar tal afirmacion, el extracto de mejillon se suminis- 
tra a un grupo de 7 pacientes con artritis osea. Si 3 o 
mas de los pacientes obtienen alivio, no rechazaremos 


la hipotesis nula de que p = 0.4; de otro modo, conclui- 
remos que p < 0.4. 

a) Evalue a suponiendo que p = 0.4. 

b) Evalue (3 para la alternativa p = 0.3. 

10.11 Repita el ejercicio 10.10 cuando se administra 
el extracto de mejillon a 70 pacientes y la region crftica 
se define como x < 24, donde x es el numero de pacien- 
tes con artritis osea que obtienen alivio. 

10.12 Se pregunta a una muestra aleatoria de 400 
votantes en cierta ciudad si estan a favor de un im- 
puesto adicional de 4% sobre la venta de gasolina, para 
obtener los fondos que se necesitan con urgencia para la 
reparation de calles. Si mas de 220 pero menos de 260 
favorecen el impuesto a tales ventas, concluiremos que 
60% de los votantes lo apoyan. 

a) Encuentre la probabilidad de cometer un error tipo 
I si 60% de los votantes estan a favor del aumento 
de impuestos. 

b) ^Cual es la probabilidad de cometer un error tipo II 
al utilizar este procedimiento de prueba si en rea- 
lidad tan solo 48% de los votantes esta a favor del 
impuesto adicional a la gasolina? 

10.13 Suponga que, en el ejercicio 10.12, concluimos 
que 60% de los votantes esta a favor del impuesto a la 
venta de gasolina, si mas de 214, pero menos de 266, 
votantes de nuestra muestra lo favorecen. Demuestre 
que esta nueva region crftica tiene como resultado un 
valor mas pequeno para a a costa de aumentar f3. 

10.14 Un fabricante desarrolla un nuevo sedal para 
pesca que, segun afirma, tiene una resistencia media a 
la rotura de 15 kilogramos con una desviacion estandar 
de 0.5 kilogramos. Para probar la hipotesis de que p = 
15 kilogramos contra la alternativa de que p < 15 kilo- 
gramos, se prueba una muestra aleatoria de 50 sedales. 
La region crftica se define como x < 14.9. 

a) Encuentre la probabilidad de cometer un error tipo 
I cuando Ho es verdadera. 

b) Evalue f3 para las alternativas p = 14.8 y p = 14.9 
kilogramos. 

10.15 En un restaurante de carnes asadas una ma- 
quina de bebidas gaseosas se ajusta de manera que la 
cantidad de bebida que sirva este distribuida de forma 
aproximadamente normal, con una media de 200 milili- 
tros y una desviacion estandar de 15 mililitros. La ma- 
quina se verifica periodicamente tomando una muestra 
de 9 bebidas y calculando el contenido promedio. Si x 
cae en el intervalo 191 < x < 209, se considera que la 
maquina opera de forma satisfactoria; de otro modo, 
concluimos que p 200 mililitros. 

a) Encuentre la probabilidad de cometer un error tipo 

I cuando p = 200 mililitros. 

b) Encuentre la probabilidad de cometer un error tipo 

II cuando p = 215 mililitros. 
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10.16 Repita el ejercicio 10.15 para muestras de ta- 
mano n = 25. Utilice la misrna region cri'tica. 

10.17 Se desarrolla una nueva cura para cierto tipo 
de cemento que tiene como resultado un coeficiente de 
compresion de 5000 kilogramos por centfmetro cuadrado 
y una desviacion estandar de 120. Para probar la hipo- 
tesis de que p = 5000 contra la alternativa de que p < 
5000, se prueba una muestra aleatoria de 50 piezas de 
cemento. La region cri'tica se define como x < 4970. 

a) Encuentre la probabilidad de cometer un error tipo 
I cuando Hq es verdadera. 

b) Evalue 0 para las alternativas /x = 4970 y /x = 
4960. 


10.18 Si graficamos las probabilidades de aceptacion 
de Ho que corresponden a diversas alternativas para /x 
(incluido el valor especificado por Ho) y conectamos to- 
dos los puntos mediante una curva suave, obtenemos 
la curva caracterfstica de operation del criterio de 
prueba o, simplemente, curva CO. Observe que la pro- 
babilidad de aceptacion de Hq cuando es verdadera es 
simplemente 1 — a. Las curvas caracterfsticas de ope- 
racion se utilizan ampliamente en aplicaciones indus- 
triales para brindar una muestra visual de los meritos 
del criterio de prueba. Con referenda al ejercicio 10.15, 
encuentre las probabilidades de aceptacion de Ho para 
los siguientes 9 valores de py grafique la curva CO: 184, 
188, 192, 196, 200, 204, 208,' 212 y 216. 


10.5 Una sola muestra: Pruebas con respecto a una sola media 
(varianza conocida) 

En esta section consideramos de manera formal pruebas de hipotesis en una sola 
media poblacional. Muchas de las ilustraciones de las secciones anteriores incluyen 
pruebas sobre la media, por lo que el lector ya deberfa tener una idea de algunos de 
los detalles que aquf se sehalan. Primero deberfamos describir las suposiciones en las 
que se basa el experimento. El modelo para la situation subyacente se centra alrede- 
dor de un experimento con Xi, X ^, . . . , X n , que representan una muestra aleatoria 
de una distribution con media p y varianza o 2 > 0. Considere primero la hipotesis 

H 0 : p = p 0 , 

Hy p ^ Mo- 

El estadfstico de prueba adecuado se deberfa basar en la variable aleatoria X. En 
el capitulo 8 se presento el teorema del lfmite central, el cual establece en esencia 
que sin importar la distribution de X , la variable aleatoria X tiene una distribution 
aproximadamente normal con media /x y varianza a 2 /n para tamanos de muestras 
razonablemente grandes. De esta manera, py = /x y Oy = a 2 /n. Podemos deter- 
minar, entonces, una region cri'tica basada en el promedio muestral calculado, x. 
Deberfa quedar claro ya al lector que habra una region cri'tica de dos colas para la 
prueba. 


Estandarizacion de X 

Es conveniente estandarizar X e incluir de manera formal la variable aleatoria nor- 
mal estandar Z, donde 


7 X-p 
a/y/n' 

Sabemos que bajo Hq, es decir, si p = po, entonces \fri(X — po)/cr tiene una distri- 
bution n(X; 0, 1) y, por lo tanto, se puede utilizar la expresion 


Z a / 2 < 


X — po 
<r/y/n 


P 


< Z a / 2 


= 1 — a 
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para escribir una region cle aceptacion adecuada. El lector deberia tener en mente 
que, formalmente, la region critica se disena para controlar a, la probabilidad de 
cometer un error tipo I. Deberia ser evidente tambien que se necesita una serial 
de evidencia de dos colas para apoyar H\. Asi, dado un valor calculado x, la prueba 
formal implica rechazar Hq si el estadistico de prueba z calculado cae en la region 
critica que se describe anteriormente. 


Procedimiento de 
prueba para una 
sola media 


x - po 
o I \fn 


> A */2 


o 


x- pg 
cr/y/n 


< ~Z a /2 


Si —z a / 2 < z < z a j 2 no se rechaza Hq. El rechazo de Ho, desde luego, implica 
la aceptacion de la hipotesis alternativa p ^ pa. Con esta definition de la region 
critica deberia quedar claro que habra la probabilidad a de rechazar Hq (que cae 
en la region critica) cuando, en realidad, p = po. 

Aunque es mas facil entender la region critica escrita en terminos de z, escribi- 
mos la misma region critica en terminos del promedio calculado z. Lo siguiente se 
puede escribir como un procedimiento de decision identico: 


rechace Hq si x < a o x > b, 


donde 


CL [A o %ol /2 " 


b — Po + Z a /2~ 


De aqui, para un nivel de significancia a, los valores criticos de la variable aleatoria 
z y x se representan en la figura 10.9. 



l 

l 

l 

l 

l 

1 { a 

l 
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a/2 

l 

l 

l 

1 
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a p b 

Figura 10.9: Region critica para la hipotesis alternativa p po- 


Las pruebas de hipotesis unilaterales sobre la media incluyen el mismo estadisti- 
co que se describe en el caso bilateral. La diferencia, por supuesto, es que la region 
critica solo esta en una cola de la distribution normal estandar. Como resultado, por 
ejemplo, supongamos que buscamos probar 

H 0 - P = Po , 

Hp p > po- 

La sehal que favorece Hi proviene de valores grandes de z. Asi, el rechazo de Hq 
resulta cuando se calcula 2 < z a . Evidentemente, si la alternativa es Hp p < po, la 
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Ejemplo 10.3: 


Solucion: 


Ejemplo 10.4: 


region critica esta por completo en la cola inferior, por lo que el rechazo resulta de 
2 < —z a . Aunque en caso de una prueba unilateral la hipotesis nula puede escribirse 
como Hq: g < go o Hy p > po, por lo general, se escribe como Hy. p = pa. 

Los siguientes dos ejemplos ilustran pruebas de medias para el caso en el que se 
conoce a. 


Una muestra aleatoria de 100 muertes registradas en Estados Unidos el aho pasado 
mostro una vida promedio de 71.8 anos. Suponiendo una desviacion estandar pobla- 
cional de 8.9 anos, ^esto parece indicar que la vida media actual es mayor que 70 
anos? Utilice un nivel de significancia de 0.05. 

1. Hy. p = 70 anos. 

2. Hy. p > 70 anos. 

3. a = 0.05. 

4. Region critica: 2 > 1.645, clonde 2 = yjyj=- 

5. Calculos: x = 71.8 anos, a = 8.9 anos y z = = 2.02. 

6 . Decision: rechace Hq y concluya que la vida media actual es mayor que 70 
anos. 

En el ejemplo 10.3 el valor P que corresponde a z = 2.02 esta dado por el area 
de la region sombreada en la figura 10.10. 



0 2.02 

Figura 10.10: Valor Ppara el ejemplo 10.3. 


Usando la tabla A. 3, tenemos 

P= P(Z > 2.02) = 0.0217. 

Como resultado, la evidencia a favor de H\ es incluso mas fuerte que la sugerida por 
un nivel de significancia de 0.05. 


Un fabricante de equipo deportivo desarrollo un nuevo sedal para pesca sintetico que 
afirma que tiene una resistencia media a la rotura de 8 kilogramos con una desviacion 
estandar de 0.5 kilogramos. Pruebe la hipotesis de que p yl 8 kilogramos contra la 
alternativa de que p ^ 8 kilogramos, si se prueba una muestra aleatoria de 50 sedales 
y se encuentra que tiene una resistencia media a la rotura de 7.8 kilogramos. Utilice 
un nivel de significancia de 0.01. 



10.6 Relation con la estimation del intervalo de conBanza 


341 


Solucion: 1 . // 0 : /t = 8 kilogramos. 

2. Hi: g ^ 8 kilogramos. 

3. a = 0.01. 

4 . Region critica: z < —2.575 y z > 2.575, donde z = yyjyj=- 

5 . Calculos: x = 7.8 kilogramos, n = 50 y, de aquf, z = q 7 5 ^^|q = —2.83. 

6. Decision: rechace H$ y concluya que la resistencia promedio a la rotura no es 
igual a 8 sino que, de hecho, es menor que 8 kilogramos. 





/ 1 \ 



P/2 

i 

i 

i 

i 

i 

i 

i 


P/2 


- 2.83 0 2.83 


Figura 10.11: Valor P para el ejemplo 10.4. 


Como la prueba en este ejemplo es de dos colas, el valor de Pque se desea es dos 
veces el area de la region sombreada de la figura 10.11 a la izquierda de z = —2.83. 
Por lo tanto, con la tabla A. 3, tenemos 

P= P{\Z\ > 2.83) = 2 P{Z < -2.83) = 0.0046. 

que nos permite rechazar la hipotesis nula de que /t = 8 kilogramos en un nivel de 
significancia menor que 0.01. 


10.6 Relacion con la estimacion del intervalo de confianza 

El lector ya deberfa haberse dado cuenta de que, en este capftulo, el enfoque de la 
prueba de hipotesis para la inferencia estadfstica esta relacionado muy de cerca con 
el enfoque del intervalo de confianza del capftulo 9. La estimacion del intervalo de 
confianza incluye el calculo de lfmites para los cuales es “razonable” que el parame- 
tro en cuestion se encuentre dentro de ellos. Para el caso de una sola media pobla- 
cional /t con cr 2 conocida, la estructura tanto de la prueba de hipotesis como de la 
estimacion del intervalo de confianza se basa en la variable aleatoria 


X -n 

u/Vn 


Resulta que la prueba de Hq: /r = /zo contra Hy. /i yf hq a un nivel de significancia 
a es equivalente a calcular un intervalo de confianza de (1 — a) 100% sobre /i y 
rechazar Hq, si /.to no esta dentro del intervalo de confianza. Si /to esta dentro del 
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intervalo de confianza, no se rechaza la hipotesis. La equivalencia es muy intuitiva y 
bastante simple de ilustrar. Recuerde que con un valor observado x no rechazar Ho 
a un nivel de significancia a implica que 

x — p o 

— Za/2 < -r~j= < z ot/2i 

<y / v n 

que es equivalente a 


a a 

' Z a/2~J : = < MO < x + z ct/2~7^- 


La equivalencia del intervalo de confianza con la prueba de hipotesis se extiende 
a las diferencias entre dos medias, varianzas, razones de varianzas, etcetera. Como 
resultado, el estudiante de estadfstica no deberfa considerar la estimacion del inter- 
valo de confianza y la prueba de hipotesis como formas separadas de la inferencia 
estadfstica. Entonces, considere el ejemplo 9.2 de la pagina 275. El intervalo de 
confianza de 95% sobre la media esta dado por los lmiites (2.50, 2.70). Asf, con la 
misma information muestral, no se rechazara una hipotesis bilateral sobre p que 
incluya cualquier valor hipotetico entre 2.50 y 2.70. A medida que regresemos a 
diferentes areas de la prueba de hipotesis, se seguira aplicando la equivalencia con la 
estimacion del intervalo de confianza. 


10.7 Una sola muestra: Pruebas sobre una sola media 
(varianza desconocida) 

Ciertamente sospecharfamos que las pruebas sobre una media poblacional p con cr 2 
desconocida, como la estimacion del intervalo de confianza, deberfa incluir el uso 
de la distribucion t de Student. Estrictamente hablando, la aplicacion de la t de 
Student tanto para los intervalos de confianza como para la prueba de hipotesis se 
desarrolla con las siguientes suposiciones. Las variables aleatorias Xi, X 2 , . . . , X n 
representan una muestra aleatoria de una distribucion normal con p y a 2 desco- 
nocidas. Entonces, la variable aleatoria \fn(X — p) / S tiene una distribucion t, de 
Student con n — 1 grados de libertad. La estructura de la prueba es identica a la del 
caso con a conocida, con la excepcion de que el valor cr en el estadfstico de prueba 
se reemplaza con la estimacion de S calculada, y la distribucion normal estandar se 
reemplaza con una distribucion t. Como resultado, para la hipotesis bilateral 

H 0 - P = P01 

H[ ■ p ^ /xo, 

el rechazo de Hq en un nivel de significancia a resulta cuando un estadfstico t calcu- 
lado 


El estadfstico t 
para una prueba 
en una sola media 
(varianza 
desconocida) 

excede t a / 2 , n -i 0 es menor que —t a / 2 m-\- El lector deberfa recordar de los capftu- 
los 8 y 9 que la distribucion t es simetrica alrededor del valor cero. Asf, esta region 
crftica de dos colas se aplica de forma similar a la del caso de cr conocida. 


x - po 
s/y/n 




10.7 Una sola muestra: Pruebas sobre una sola media (varianza desconocida) 


343 


Para la hipotesis bilateral en un nivel de significancia a, se aplican las regiones 
crfticas de dos colas. Para H±: /./, > /jq, el rechazo resulta cuando t > t a , n - 1 - Para 
Hi: /i < fj, o, la region critica esta dada por t > —t a , n - 1 - 


Ejemplo 10.5:1 El Instituto Electrico Edison publica cifras del numero anual de kilowatts-hora que 
gastan varios aparatos electrodomesticos. Se afirma que una aspiradora gasta un 
promedio de 46 kilowatts-hora al aho. Si una muestra aleatoria de 12 hogares que 
se incluye en un estudio planeado indica que las aspiradoras gastan un promedio de 
42 kilowatts-hora al aho con una desviacion estandar de 11.9 kilowatts-hora, ^en un 
nivel de significancia de 0.05 esto sugiere que las aspiradoras gastan, en promedio, 
menos de 46 kilowatts-hora anualmente? Suponga que la poblacion de kilowatts- 
hora es normal. 

Solucion: 1. Hq: /j, = 46 kilowatts-hora. 

2. Hi: (i < 46 kilowatts-hora. 

3. a = 0.05. 

4. Region critica: t < —1.796, donde t = fyy= con 11 grados de libertad. 

5. Calculos: x = 42 kilowatts-hora, s = 11.9 kilowatts-hora y n = 12. De aquf, 

42 — 46 

t = — = -1.16, P = PIT < -1.16) « 0.135. 

11.9/\/l2 

6 . Decision: no rechace Hq y concluya que el numero promedio de kilowatts-hora que 
gastan al aho las aspiradoras domesticas no es significativamente menor que 46. 

J 


Comentario sobre la prueba T de una sola muestra 

Es probable que el lector note que se mantiene la equivalencia de la prueba t de 
dos colas para una sola media y el calculo de un intervalo de confianza sobre /c con 
cr reemplazada por s. Asf, considere el ejemplo 9.5 de la pagina 280. En esencia, 
podemos ver ese calculo como uno donde encontramos todos los valores de fi o, el vo- 
lumen medio hipotetico de contenedores de acido sulfurico, para los que la hipotesis 
Hq: h = /.io no se rechazara con a = 0.05. Nuevamente, esto es consistente con el 
planteamiento: “Con base en la information muestral, son razonables los valores del 
volumen medio de la poblacion entre 9.74 y 10.26 litros.” 

En este momento vale la pena destacar algunos comentarios con respecto a la 
suposicion de normalidad. Indicamos que cuando se conoce cr, el teorema del lfmite 
central permite el uso de un estadfstico de prueba o de un intervalo de confianza 
que se base en Z, la variable aleatoria normal estandar. Estrictamente hablando, por 
supuesto, el teorema del lfmite central y, por ello, el uso de la normal estandar no se 
aplica a menos que se conozca cr. En el capftulo 8, se estudio el desarrollo de la distri- 
bution t. En ese momento se establecio que la normalidad sobre Xi, . . . , X n era 
una suposicion basica. Entonces, en sentido estricto , las tablas de la t de Student de 
puntos porcentuales para pruebas o intervalos de confianza no se deberfan utilizar, a 
menos que se sepa que la muestra proviene de una poblacion normal. En la practica, 
cr rara vez se puede suponer conocida. Sin embargo, se dispondrfa de una buena es- 



344 


Capitulo 10 Pruebas de hipotesis de una y dos muestras 


timacion a partir de experimentos anteriores. Muchos libros de estadi'stica sugieren 
que es posible reemplazar con seguridad o por s en el estadi'stico de prueba 


x - no 

ojsjn ’ 


cuando n > 30 y aim as! utilizar las tablas Z para la region cri'tica adecuada. Aqui, 
la implication es que en realidad se recurre al teorema del lfmite central y se cuenta 
con el hecho de que s « cr. Evidentemente, cuando se hace esto el resultado se debe 
ver como aproximacion. De esta manera, un valor P calculado (de la distribucion 
Z) de 0.15 puede ser 0.12 o quiza 0.17; o un intervalo de confianza calculado puede 
ser un intervalo de confianza de 93% en vez de un intervalo de 95% como se desea. 
Entonces, ique sucede con las situaciones donde n < 30? El usuario no puede confiar 
en que s este cercana a cr, y para tomar en cuenta la inexactitud de la estimation, el 
intervalo de confianza deberfa ser mas amplio o el valor crftico de mayor magnitud. 
Los puntos porcentuales de la distribucion t. realizan esto; pero son correctos solo 
cuando la muestra proviene de una distribucion normal. Desde luego, se pueden 
utilizar las graficas de probabilidad normal para tener alguna notion de la desvacion 
de la normalidad en un conjunto de datos. 

Para muestras pequenas, a menudo resulta diffcil detectar desviaciones de una 
distribucion normal. (Las pruebas de la bondad del ajuste se presentan en una section 
posterior de este capitulo). Para distribuciones en forma de campana de las variables 
aleatorias X±, X 2 , . . . , X n , el uso de la distribucion t para pruebas o intervalos de 
confianza es probable que sea bastante bueno. Cuando haya duda, el usuario deberfa 
recurrir a los procedimientos no parametricos que se presentan en el capitulo 16. 


Resultados por computadora comentados para pruebas T 
de una sola muestra 

Deberfa ser de interes para el lector ver resultados por computadora comentados 
que muestren el resultado de una prueba t de una sola muestra. Suponga que un 
ingeniero se interesa en probar el sesgo en un medidor de pH. Se reunen datos de 
una sustancia neutra (pH = 7.0). Se toma una muestra de las mediciones y los datos 
son los siguientes: 

7.07 7.00 7.10 6.97 7.00 7.03 7.01 7.01 6.98 7.08 
Entonces, es de interes probar 

Hy. p = 7.0, 

Hp p ± 7.0. 

En esta ilustracion utilizamos el software MINITAB para ilustrar el analisis del 
conjunto de datos anterior. Observe los componentes clave de la salida que se mues- 
tra en la figura 10.12. Desde luego, la media y = 7.0250, StDev es simplemente la 
desviacion estandar de la muestra s = 0.440 y SE Mean es el error estandar estimado 
de la media y se calcula como s/i/n = 0.0139. El valor t. es la razon 

(7.0250 - 7)/0.0139 = 1.80. 

El valor Pde 0.106 sugiere resultados que no son concluyentes. No hay un recha- 
zo solido de Hq (con base en una a de 0.05 o de 0.10) ni se puede concluir con 
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pH-meter 

7.07 7.00 7.10 6.97 7.00 7.03 7.01 7.01 6.98 7.08 

MTB > Onet ’pH-meter’; SUBC> Test 7. 

One-Sample T: pH-meter Test of mu = 7 vs not = 7 

Variable N Mean StDev SE Mean 95°/. Cl TP 

pH-meter 10 7.02500 0.04403 0.01392 (6.99350, 7.05650) 1.80 0.106 


Figura 10.12: Salida de MINITAB para la prueba t. de una muestra para el medidor de pH. 


certeza que el medidor de pH esta insesgado. Observe que el tamano de la 
muestra de 10 es bastante pequeno. Un aumento en el tamano de la muestra (quizas 
otro experimento) podria arreglar la situation. En la seccion 10.10 aparece un ana- 
lisis con respecto al tamano de la muestra adecuado. 


10.8 Dos muestras: Pruebas sobre dos medias 


El lector ya llego a comprender la relation entre pruebas e intervalos de confianza, 
y puede confiar por completo en los detalles que ofrece el material sobre el intervalo 
de confianza del capftulo 9. Las pruebas con respecto a dos medias representan un 
conjunto de herramientas analiticas muy importantes para el cientffico o el ingenie- 
ro. El procedimiento experimental es muy parecido al que se describe en la seccion 
9.8. Se extraen dos muestras aleatorias independientes de tamano n\ y n. 2 , respecti- 
vamente, de dos poblaciones con medias /q y /i 2 , y varianzas <j\ y o\. Sabemos que 
la variable aleatoria 


^ (Xi ~ X 2 ) - (Mi - M2) 

\Jo\ln\ + <7 l/n 2 

tiene una distribucion normal estandar. Suponemos aqui que n\ y 712 son suficiente- 
mente grandes, por lo que se aplica el teorema del lfmite central. Por supuesto, si las 
dos poblaciones son normales, el estadistico anterior tiene una distribucion normal 
estandar aun para ni y 112 pequenas. Evidentemente, si podemos suponer que <ri = 
(72 = cr, el estadistico anterior se reduce a 


(Xi — X2 ) — (/q — /.i 2 ) 
osjlfnx + l/n 2 


Los dos estadisticos anteriores sirven como base para el desarrollo de los procedi- 
mientos de prueba que incluyen dos medias. La equivalencia con el intervalo de 
confianza y la facilidad de la transition del caso de pruebas sobre una sola media 
hacen que esto sea sencillo. 

La hipotesis bilateral sobre dos medias se escribe con bastante generalidad 
como 

Ho'- /q ~ b? = d 0 . 

En efecto, la alternativa puede ser bilateral o unilateral. De nuevo, la distribucion 
que se utiliza es la distribucion del estadistico de prueba bajo H 0 . Se calculan los 
valores x\ y X 2 , y para o\ y 02 conocidas, el estadistico de prueba esta dado por 


(aq - x 2 ) ~ dp 
\/ a i/ n i +cr%/n 2 ’ 


z = 
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con una region critica de dos colas en el caso de una alternativa bilateral. Es clecir, 
rechazace Ho a favor de Hy. pi — p2 do si z > z a /2 o z < — z a /2 ■ Las regiones 
criticas de una cola se utilizan en el caso de alternativas unilaterales. El lector de- 
berta estudiar, como antes, el estadistico de prueba y quedar satisfecho de que para, 
digamos, Hy. pi — P2 > do, la senal que favorece Hi provenga de valores grandes de z. 
De esta manera se aplica la region critica de la cola superior. 


Varianzas desconocidas pero iguales 

Las situaciones que mas prevalecen que implican pruebas sobre dos medias son 
aquellas con varianzas desconocidas. Si el cientifico interesado esta dispuesto a supo- 
ner que ambas distribuciones son normales y que ay = <J 2 = <r, se puede utilizar la 
prueba t combinada (a menudo llamada prueba t de dos muestras). El estadistico de 
prueba (vease la section 9.8) esta dado por el siguiente procedimiento de prueba. 


Prueba T {xi - x 2 ) - d 0 

combinada de 

dos muestras 

donde 

2 = s l( n l ~ 1) + s|( n 2 ~ 1) 

Sp ni + n 2 - 2 

Se incluye la distribucion t y no se rechaza la hipotesis bilateral cuando 

^ck/ 2, ni+n.2— 2 ^ t ^a/2, 711+772— 2* 

Del material del capitulo 9 recuerde que los grados de libertad para la distribucion 
t son un resultado de la combination de la information de las dos muestras para es- 
timar a 2 . Las alternativas unilaterales sugieren regiones criticas unilaterales, como 
era de esperarse. Por ejemplo, para Hy p\ — P2 > do, rechace Hy. p\ — p2 = do 
cuando t > t Q , ni+n2 _ 2 . 


s p\/l/ n i + 1 Ati’ 


Ejemplo 10.6:1 Se lleva a cabo un experimento para comparar el desgaste por abrasivos de dos di- 
ferentes materiales laminados. Se prueban 12 piezas del material 1 exponiendo cada 
pieza a una maquina para medir el desgaste. Diez piezas del material 2 se prueban 
de manera similar. En cada caso, se observa la profundidad del desgaste. Las mues- 
tras del material 1 dan un desgaste promedio (codificado) de 85 unidades con una 
desviacion estandar muestral de 4; en tanto que las muestras del material 2 dan un 
promedio de 81 y una desviacion estandar muestral de 5. ^Poclriamos concluir, con 
un nivel de significancia de 0.05, que el desgaste abrasivo del material 1 excede el 
del material 2 en mas de 2 unidades? Suponga que las poblaciones son aproximada- 
mente normales con varianzas iguales. 

Solucion: Representemos con pi y p 2 las medias poblacionales del desgaste abrasivo para el 
material 1 y el material 2, respectivamente. 

1 . Hq'- pi — P 2 = 2 . 

2. Hy. pi — p2 > 2. 

3. a = 0.05. 

4. Region critica: t > 1.725, donde t = ( x ^- x ^)~ d o con v = 20 grados de li- 

, , SpV 1 / n l+ 1 / n 2 
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5. Calculos: 


x\ = 85, Si =4, n\ = 12, 

#2 = 81, s 2 = 5, ?r 2 = 10. 

De aqui, 

(II)(16) + (9)(25) 

12 + 10-2 
(85 - 81) - 2 
4.478^1/12+1/10 
P = P(T > 1.04) « 0.16. 

6. Decision: no rechace Hq. Somos incapaces de concluir que el desgaste abrasivo 
del material 1 excede el del material 2 en mas de 2 unidades. 

Varianzas desconocidas pero diferentes 

Hay situaciones donde el analista no es capaz de suponer que <j\ = o 2 . Del capitulo 9 
recuerde que, si las poblaciones son normales, el estadistico 

(*i ~ - d 0 

y/si/ni + s\/n 2 

tiene una distribution t aproximada con grados de libertad aproximados 

{s\/ni + sl/n 2 ) 2 

V ~ (s?/m) 2 /(m - 1) + (s 2 2 /n 2 )y(n 2 - 1)' 

Como resultado el procedimiento de prueba es no rechazar Hq cuando 

ta/2,v + t + t'a/2,v> 

con v dado como antes. De nuevo, como en el caso de la prueba t combinada, las 
alternativas unilaterales sugieren regiones criticas unilaterales. 



= 4.478, 

= 1.04, 

(Vease la tabla A. 4.) 


Observaciones pareadas 

Cuando el aprendiz de estadistica estudia la prueba t de dos muestras o el intervalo 
de confianza sobre la diferencia entre medias, se deberia dar cuenta de que algunas 
nociones elementales que se tratan en el diseiio experimental se vuelven relevantes 
y se cleben considerar. Recuerde la discusion sobre las unidades experiment ales en el 
capitulo 9, donde se sugirio en ese momento que la condition de las dos poblaciones 
(a menudo denominadas los dos tratamientos) se cleberian asignar de manera alea- 
toria a las unidades experimentales. Esto se realiza para evitar resultados sesgados 
debido a las diferencias sistematicas entre unidades experimentales. En otras pala- 
bras, en terminos de la jerga en prueba de hipotesis, es importante que la diferencia 
significativa que se encuentra (o que no se encuentra) entre las medias se cleba a 
las diferentes condiciones de las poblaciones, y no a las unidades experimentales en 
el estudio. Por ejemplo, considere el ejercicio 9.40 de la section 9.9. Los 20 retonos 
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juegan el papel de unidades experimentales. Diez de ellas se tratan con nitrogeno y 
10 sin nitrogeno. Puede ser muy importante que esta asignacion al tratamiento “con 
nitrogeno” y “sin nitrogeno” sea aleatoria, para asegurar que las diferencias sistemati- 
cas entre los retonos no interfieran con una comparacion valida entre las medias. 

En el ejemplo 10.6, el tiempo de medicion es la eleccion mas probable de la uni- 
clad experimental. Las 22 piezas de material se deberian medir en orden aleatorio. 
Necesitamos protegernos contra la posibilidad de que las mediciones del desgaste 
que se realicen casi al mismo tiempo tiendan a dar resultados similares. No se espe- 
ran diferencias sistematicas (no aleatorias) en las unidades experimentales. 
Sin embargo, las asignaciones aleatorias protegen contra el problema. 

Referencias a la planeacion de experimentos, aleatorizacion, eleccion del tamano 
de la muestra, etcetera, continuaran influyendo en gran parte del clesarrollo en los 
capitulos 13, 14 y 15. Cualquier cientifico o ingeniero cuyo interes resida en el analy- 
sis de datos reales deberia estudiar este material. La prueba t combinada se amplia 
en el capitulo 13 para cubrir mas de dos medias. 

La prueba de dos medias se puede llevar a cabo cuando los datos estan en la 
forma de observaciones pareadas como se estudio en el capitulo 9. En esta estructura 
de pareamiento, las condiciones de las dos poblaciones (tratamientos) se asignan de 
forma aleatoria clentro de unidades homogeneas. El calculo del intervalo de confian- 
za para pi — p 2 en la situation con observaciones pareadas se basa en la variable 
aleatoria 


= D - pp 

Sd/V n ’ 

donde D y Sd son variables aleatorias que representan la media muestral y las 
desviaciones estandar de las diferencias de las observaciones en las unidades experi- 
mentales. Como en el caso de la prueba t combinada , la suposicion es que las obser- 
vaciones de cada poblacion son normales. Este problema de dos muestras se reduce 
en esencia a un problema de una muestra utilizando las diferencias calculadas di, 
d% . . . , d n . De esta manera, la hipotesis se reduce a 


Hy. pd — do- 


El estadistico de prueba calculado esta dado entonces por 

t= d-d 0 
Sd/y/n' 

Las regiones criticas se construyen usando la distribution t con n — 1 grados de 
libertad. 


Ejemplo 10.7:1 En un estudio realizado en el Departamento de Silvicultura y Fauna del Instituto 
Politecnico y Universidad Estatal de Virginia, J. A. Wesson examino la influencia 
del farmaco succinylcholine sobre los niveles de circulation de anclrogenos en la 
sangre. Se obtuvieron muestras sanguineas de venados salvajes via la vena yugular, 
inmediatamente despues de una inyeccion intramuscular de succinylcholine con dar- 
dos de un rifle de caza. Los venados se sangraron nuevamente aproximadamente 30 
minutos despues de la inyeccion y luego se liberaron. Los niveles de anclrogenos al 
momento de la captura y 30 minutos mas tarde, medidos en nanogramos por milili- 
tro (ng/ml), para 15 venados se presentan en la tabla 10.2. 
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Tabla 10.2: Datos para el ejemplo 10.7 


V enado 

Al momento 
de la inyeccion 

Androgenos (ng/ml) 

30 minutos despues 
de la inyeccion 

di 

1 

2.76 

7.02 

4.26 

2 

5.18 

3.10 

2.08 

3 

2.68 

5.44 

2.76 

4 

3.05 

3.99 

0.94 

5 

4.10 

5.21 

1.11 

6 

7.05 

10.26 

3.21 

7 

6.60 

13.91 

7.31 

8 

4.79 

18.53 

13.74 

9 

7.39 

7.91 

0.52 

10 

7.30 

4.85 

-2.45 

11 

11.78 

11.10 

-0.68 

12 

3.90 

3.74 

-0.16 

13 

26.00 

94.03 

68.03 

14 

67.48 

94.03 

26.55 

15 

17.04 

41.70 

24.66 


Suponiendo que las poblaciones de androgenos al momento de la inyeccion y 30 
minutos despues se distribuyen normalmente, pruebe con un nivel de significancia 
de 0.05 si las concentraciones de androgenos se alteran clespues de 30 minutos de 
encierro. 

Solucion: Sean h i y /x 2 la concentration promedio de androgenos al momento de la inyeccion 
y 30 minutos despues, respectivamente. Procedemos como sigue: 

1. H 0 : Hi = H 2 o hd = Hi ~ M 2 = 0. 

2. Hi : hi 7 ^ /X 2 o hd = Hi ~ M 2 0. 

3. a = 0.05. 

4. Region critica: t < —2.145 y t > 2.145, donde t = con v = 14 grados de 

libertad. 

5. Calculos: La media muestral y la clesviacion estandar para las di son 

d = 9.848 y s d = 18.474. 

Por lo tanto, 


t 


9.848 - 0 
18.474/VI5 


2.06. 


6. Aunque el estadfstico t no es significativo al nivel 0.05, de la tabla A. 4, 


P = P(\T\ > 2.06) « 0.06. 


Como resultado, existe alguna evidencia de que hay una diferencia en los niveles 
medios circulantes de androgenos. 

En el caso de observaciones pareadas, es importante que no haya interaccion en- 
tre los tratamientos y las unidades experimentales. Esto se discutio en el capitulo 9 
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en el clesarrollo de intervalos de confianza. La suposicion de no interaction implica 
que el efecto de la unidad experimental, o pareada, es el mismo para cada uno de 
los dos tratamientos. En el ejemplo 10.7, suponemos que el efecto en el venado es 
el mismo para las dos condiciones que se estudian; a saber, “en el momento de la 
inyeccion” y 30 minutos despues de la inyeccion. 


Salidas por computadora comentadas para la prueba T pareada 

La figura 10.13 muestra una salida por computadora del SAS para una prueba t pa- 
reada usando los datos del ejemplo 10.7. Observe que la apariencia de la salida es 
la de una prueba t de una sola muestra y, por supuesto, esto es exactamente lo que 
se realizo, ya que la prueba busca determinar si d es significativamente diferente de 
cero. 


Analysis Variable : Diff 

N Mean Std Error t Value Pr > It I 

15 9.8480000 4.7698699 2.06 0.0580 


Figura 10.13: Salida del SAS de la prueba t, pareada para los datos del ejemplo 10.7. 


Resumen de los procedimientos de prueba 

Dado que completamos el desarrollo formal de pruebas sobre medias poblacionales, 
ofrecemos la tabla 10.2 que resume el procedimiento de prueba para los casos de una 
sola media y de dos medias. Note el procedimiento aproximado cuando las distribu- 
ciones son normales y las varianzas se desconocen pero no se suponen iguales. Este 
estadistico se estudio en el capitulo 9. 


10.9 Eleccion del tamano de la muestra para probar medias 

En la section 10.2 demostramos como el analista puede explotar las relaciones entre 
el tamano de la muestra, el nivel de significancia a y la potencia de la prueba para 
alcanzar cierto estandar de calidad. En la mayoria de las circunstancias practicas el 
experimento deberia planearse con una eleccion de un tamano muestral que se reali- 
za antes del proceso de recoleccion de datos, si es posible. Por lo general, el tamano 
de la muestra se establece para lograr una buena potencia para una a fija y una 
alternativa especifica fija. Esta alternativa fija puede estar en la forma de p — po en 
el caso de una hipotesis que incluya una sola media, de o pi — p 2 en el caso de un 
problema que implique dos medias. Los casos especificos seran ilustrativos. 

Suponga que cleseamos probar la hipotesis 


H 0 : p = poi 
Hp. p > p 0 . 
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Tabla 10.3: Pruebas relacionadas con medias 



Valor del estadastico 



H 0 

de prueba 

Hi 

Region crftica 

9 = 9o 

z = a conocida 

< T/y/n 7 

9 < 9o 

z < —z a 



9 > 9o 

z > z a 



9 ^ 9o 

z < -Za/ 2 0 Z> Z a/2 

9 = b-o 

t — xjtpL- v = n 1, 

s/y/n 7 

9 < 9o 

t < ~t a 


o desconocida 

9 > 9o 

t > t a 



9 ^ 9o 

t < t a / 2 0 t t a / 2 

9i ~ 92 = do 

( xi-x 2 )-d 0 _ 

\/ <rl/ni+<T%/ri2 ’ 

9i — 92 < do 

Z < -z Q 


cti y <72 conocida 

9i — 92 > do 

z> z a 



9i 92 do 

Z < -Z a /2 0 Z> Z a/2 

9i ~ 92 = do 

± _ (x 1 -x 2 )-d 0 . 

S P\/ l/ ni + l/ n 2 ’ 

9i ~ 92 < do 

t < ~t a 


v = ni + n 2 - 2, 

9i ~ 92 > do 

t > t a 


<7 1 = 02 pero desconocida 

9i 92 do 

t < t a /2 0 t > t a /2 


,,2 _ («i-l )s? + (ri 2 -l)sl 

5 P ni+ri2 — 2 



9i ~ 92 = do 

4-1 _ (x 1 -x 2 )-d 0 . 

\J s\/nx+s\/n 2 ' 

9i ~ 92 < do 

f < ~t a 


„. _ (s?/™l+Sp/"2) 2 . 

( = ?/»l) 2 Ol/"2> 2 > 

9i ~ 92 > d 0 

t' > t a 


n l — 1 n.2~ 1 

<Ti ^ cr 2 y desconocida 

9i ~ 92 ± d 0 

t' < ~t a / 2 0 t' > t a/2 

9d = do 

A = ; v = n 1 

Sd/y/n 7 

Pd < do 

t < ~t a 

observaciones 


Pd > do 

t > t a 

pareadas 


9d do 

t <C t a /2 0 t > t a /2 


Con un nivel de significancia a cuando se conoce la varianza o 2 . Para una alter- 
nativa especifica, digamos, p = po + 8, en la figura 10.14, se muestra que la potencia 
de nuestra prueba es 


1 — /3 = P(X > a cuando p = po + 5). 


Por lo tanto, 


/3 = P(X < a cuando p = po + 6) 

X ~ (a* o + 5) a — (po + (5) 


< 


o/sjn o I \jn 

Bajo la hipotesis alternativa p= po + S, el estadi'stico 

X — ( po + < 5 ) 


cuando p = po + S 


<?/v'n 

es la variable normal estandar Z. Por lo tanto, 

5 


(3 = P\Z < 


a- po 


own cr \/n 


= P Z < Z a ~ 
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Ejemplo 10.8: 


Solucion: 



de donde concluimos que 


-zp = z a - 



y de aquf, 


Selection del tamano de la muestra: n = 


(z a + zp) 2 a 2 

5 2 


resultado que tambien es verdadero cuando la hipotesis alternativa es p < po- 

En el caso de una prueba de dos colas, obtenemos la potencia 1 — /3 para una 
alternativa especifica cuando 


{z a / 2 + zp) 2 (r 2 

6 2 


Suponga que deseamos probar la hipotesis 

Hy. p = 68 kilogramos, 

Hp p > 68 kilogramos, 

para los pesos de estudiantes hombres en cierta universidad usando un nivel de 
significancia a = 0.05 cuando se sabe que a = 5. Encuentre el tamano muestral que 
se requiere si la potencia de nuestra prueba debe ser 0.95 cuando la media real es 
69 kilogramos. 

Como a = (3= 0.05, tenemos z a = zp= 1.645. Para la alternativa f3 = 69, tomamos 
5 = 1 y, entonces, 


„ = ( 1-645 + 1 ^( 25 ) = 27() „ 

Por lo tanto, se requieren 271 observaciones si la prueba debe rechazar la hipotesis 
nula 95% de las veces cuando, de hecho, p es tan grande como 69 kilogramos. 
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El caso de dos muestras 

Se puede utilizar un procedimiento similar para determinar el tamano de la muestra 
n = ni = ri 2 que se requiere para una potencia especifica de la prueba en que se 
comparan dos medias poblacionales. Por ejemplo, suponga que deseamos probar la 
hipotesis 


Hq : Hi — p-2 — do, 

Hi- Hi - H 2 4 do , 

cuando se conocen oi y 02 - Para una alternativa especifica, digamos, hi ~ H 2 = do + S, 
en la figura 10.15 se muestra que la potencia de nuestra prueba es 


1 — (3 = P( \Xi — X 2 I > a cuando Hi — H 2 — do + 6. 


Por lo tanto, 


a/2 


a.1 2 


a d 0 + 8 


Figura 10.15: Prueba de /Jj — H'2 = do contra Hi — H 2 — do + S. 


f3 = P(—a < Xi — X 2 < a cuando Hi ~ H 2 = do + S) 
= P 


—a — (do + 5) (A'i — X 2 ) — (do + S ) 


sJ(o\ +cr|)/n sJ(o\ +(j|)/n 
a — (do + 5) 


< 


cuando Hi ~ H 2 = do + 


V( cr i + °l)/ n 

Con la hipotesis alternativa Hi — H 2 = do + S, el estadistico 

Xi- X 2 - (d 0 + 6) 

V( ff i+ <J l)/n 

es la variable normal estandar Z. Ahora bien, al escribir 

— a — do cl — do 


Z<y./2 


\/(<rl + o%)/n 


y z a / 2 = 


VR + ofj/n 
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tenemos 


ft = P 


~ z a/2 ~ 


V( a i+ a 2)/n 


< Z < Z a /2 ~ 


vVi +°2 )/ n 


de donde concluimos que 


6 

z f3 ~ -^a/2 n. 2 ' 7 T\~/ ’ 

V( a i + <?2 )/n 

y, por lo tanto, 

{z a /2 + zp) 2 (al +cr|) 
n ~ S 2 

Para la prueba de una sola cola, la expresion para el tamano requerido de la muestra 
cuando n = n\ = ri 2 es 


Eleccion del tamano de la muestra: n = 


(z a + zp) 2 (cr l + a|) 


Cuando se desconoce la varianza poblacional (o varianzas en la situacion de dos 
muestras), la eleccion del tamano de la muestra no es directa. A1 probar la hipotesis 
/i = /io cuando el valor real es p = po + S, el estadistico 

X — (/io + 6) 

S/^/n 

no sigue la distribution t, como podria esperarse, sino que mas bien sigue la dis- 
tribucion t no central. Sin embargo, existen tablas o graficas que se basan en 
la distribucion t no central para determinar el tamano adecuado de la muestra, si 
se dispone de alguna estimation de cr o si 5 es un multiplo de a. La tabla A. 8 da 
los tamanos muestrales necesarios para controlar los valores de a y S para diversos 
valores de 


A = j^l _ IM-Mo 

a a 

para pruebas de una y de dos colas. En el caso de la prueba t de dos muestras en 
la que se desconocen las varianzas, pero se suponen iguales, obtenemos los tamanos 
muestrales n = ri\ = n 2 necesarios para controlar los valores de a y (3 para diversos 
valores de 


A _ |^| _ Mi ~ P-2 ~ dp\ 
a a 

de la tabla A. 9. 


Ejemplo 10.9:1 A1 comparar el comportamiento de dos catalizadores sobre el efecto del rendimiento 
de una reaction, se realiza una prueba t de dos muestras con a = 0.05. Las varianzas de 
los rendimientos se consideran las mismas para los dos catalizadores. /,De que tama- 
ho se necesita una muestra para cada catalizador, si se desea probar la hipotesis 


Hq' Mi — M2> 

Hy. pi M2, 
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si es esencial detectar una diferencia de 0.8 ct entre los catalizadores con probabilidad 
0.9? 

Solucion: De la tabla A. 9, con a = 0.05 para una prueba de dos colas, (3 = 0.1, y 


|0.8cr| 


= 0 . 8 , 


encontramos que el tamano de la muestra que se requiere es n = 34. 

Se enfatiza que en situaciones practicas seria dificil forzar a un cientifico o a un 
ingeniero a hacer un compromiso sobre la information de la que se puede encontrar 
un valor de A. Se recuerda al lector que el valor A cuantifica la clase de diferencia 
entre las medias que el cientifico considera importantes; es decir, una diferencia que 
se considere significativa desde un punto de vista cientifico, no estadistico. El ejem- 
plo 10.9 ilustra como se hace a menudo esta eleccion; a saber, mediante la selection 
de una fraccion de a. Evidentemente, si el tamano de la muestra se basa en una 
eleccion de | <5 que es una fraccion pequena de cr, el tamano muestral que resulta 
puede ser bastante grande comparado con lo que permite el estudio. 


10.10 Metodos graficos para comparar medias 

En el capitulo 3 se pone una considerable atencion hacia la presentation de clatos en 
forma grafica. Los diagramas de tallo y hojas, en el capitulo 8, y las graficas de caja 
y extension, graficas de cuantiles y graficas normales cuantil-cuantil se utilizan para 
brindar una “imagen” y resumir asi un conjunto de datos experimentales. Muchos 
paquetes de software computacional producen representaciones graficas. A medida 
que procedamos con otras formas de analisis de datos (por ejemplo, el analisis de 
regresion y el analisis de varianza), los metodos graficos se vuelven aun mas infor- 
mativos. 

Las ayudas graficas que se utilizan junto con la prueba de hipotesis no se usan 
como un reemplazo del procedimiento de prueba. En realidad, el valor del estadistico 
de prueba indica el tipo adecuado de evidencia en apoyo de Hq o H±. Sin embargo, 
una representation como imagen ofrece una buena ilustracion y a menudo es un me- 
jor comunicador de evidencia para el beneficiario del analisis. Ademas, una imagen 
con frecuencia dejara claro por que se encontro una diferencia significativa. La falla 
de una suposicion importante se puede descubrir mediante un resumen grafico. 

Para la comparacion de las medias, las graficas de caja y extension de lado a 
lado tienen una presentation reveladora. El lector deberia recordar que estas grafi- 
cas muestran el percentil 25, el percentil 75 y la mediana en un conjunto de datos. 
Ademas, las extensiones muestran los extremos en un conjunto de datos. Considere 
el ejercicio 10.40 que sigue a esta section. Se miden los niveles en plasma de acido 
ascorbico en dos grupos de mujeres embarazadas: fumadoras y no fumadoras. La 
figura 10.16 muestra las graficas de caja y extension para ambos grupos de mujeres. 
Dos cuestiones son muy evidentes. Al tomar en cuenta la variabilidad en los dos 
grupos parece haber una diferencia despreciable en las medias muestrales. Ademas, 
la variabilidad en los dos grupos parece ser algo diferente. Por supuesto, el analista 
debe tener presentes, en este caso, las diferencias mas bien considerables entre los 
tamanos muestrales. 

Considere el ejercicio 9.40 de la section 9.9. La figura 10.17 presenta la grafica 
multiple de caja y extension para los datos de 10 retonos, la mitad con nitrogeno y 
la otra mitad sin nitrogeno. Tal grafica revela una valiabilidad menor para el grupo 
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Figura 10.16: Dos graficas de caja y extension de Figura 10.17: Dos graficas de caja y extension 

los datos de acido ascorbico para mujeres para los datos de los retonos. 

fumadoras y no fumadoras. 


sin nitrogeno. Ademas, la falta de traslape de las cajas sugiere una diferencia sig- 
nificativa entre los pesos medios de los tallos entre ambos grupos. Pareceria que la 
presencia de nitrogeno aumenta el peso de los tallos y quizas aumente la variabilidad 
en los pesos. 

No existen ciertas reglas generales con respecto a cuando las graficas de caja y 
extension brindan evidencia de diferencias significativas entre las medias. Sin embar- 
go, una pauta aproximada es que si la lfnea del percentil 25 para una muestra excede 
la lfnea de la mediana de la otra muestra, hay evidencia solida de una diferencia 
entre las medias. 

Se hara mas enfasis en los metodos graficos en un estudio de caso de la vida real, 
que se presenta mas adelante en este capitulo. 


Salida por computadora comentada 
para una prueba T de dos muestras 

Considere los datos del ejercicio 9.40, seccion 9.9, donde se reunieron los datos de los 
retonos en condiciones con nitrogeno y sin nitrogeno. Pruebe 

Ho'- Mnit = Mnon 
Hy. /Unit > Mnon 

donde las medias poblacionales indican los pesos medios. La figura 10.18 es una sa- 
lida por computadora comentada del paquete SAS. Observe que las desviaciones 
estandar y el error estandar se muestran para ambas muestras. Se da el estadfstico t 
bajo la suposicion de “varianza igual” y de “varianza diferente”. De la grafica de 
caja y extension de la figura 10.17 en realidad pareceria que se transgrede la suposi- 
cion de varianza igual. Un valor Pde 0.0229 sugiere una conclusion de medias dife- 
rentes. Esto coincide con la informacion de diagnostico que se da en la figura 10.18. 
A proposito, observe que t y t' son iguales en este caso, ya que rq = ri 2 - 
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TTEST Procedure 


Variable Weight 


Mineral N Mean Std Dev Std Err 

No nitrogen 10 0.3990 0.0728 0.0230 

Nitrogen 10 0.5650 0.1867 0.0591 


Variances 

DF 

t Value 

Pr > | t | 


Equal 

18 

2.62 

0.0174 


Unequal 

11.7 

2.62 

0.0229 



Test the 

Equality of 

Variances 


Variable 

Num DF 

Den DF 

F Value 

Pr > F 

Weight 

9 

9 

6.58 

0.0098 


Figura 10.18: Salida del SAS para la prueba t de dos muestras. 


Ej ercicios 

10.19 Una empresa de material electrico fabrica bom- 
billas de luz que tienen una duracion que se distribuye 
de forma aproximadamente normal con una media de 
800 lioras y una desviacion estandar de 40 horas. Prue- 
be la hipotesis de que p, = 800 lioras contra la alter- 
nativa p yt 800 horas, si una muestra aleatoria de 30 
bombillas tiene una duracion promedio de 788 horas. 
Utilice un valor P en su respuesta. 

10.20 Una muestra aleatoria de 64 bolsas de palomi- 
tas (rosetas) de mafz con queso chedar pesan, en pro- 
medio, 5.23 onzas con una desviacion estandar de 0.24 
onzas. Pruebe la hipotesis de que p = 5.5 onzas contra 
la hipotesis alternativa, /i < 5.5 onzas con un nivel de 
significancia de 0.05. 

10.21 En un informe de investigation de Richard H. 
Weindruch de la Escuela de Medicina de la ucla, se 
afirma que los ratones con una vida promedio de 32 
meses vivirfan hasta alrededor de 40 meses de edad, 
cuando 40% de las calorias en su dieta se reempla- 
cen con vitaminas y protefnas. ^Hay alguna razon para 
creer que p < 40, si 64 ratones que se sujetan a esa 
dieta tienen una vida promedio de 38 meses con una 
desviacion estandar de 5.8 meses? Utilice un valor Pen 
su conclusion. 

10.22 La estatura promedio de mujeres en el grupo 
de primer ano de cierta universidad es de 162.5 centf- 
metros con una desviacion estandar de 6.9 centfmetros. 
^Hay alguna razon para creer que hay un cambio en 
la estatura promedio, si una muestra aleatoria de 50 
mujeres en el grupo actual de primer ano tiene una 
altura promedio de 165.2 centfmetros? Utilice un valor 
P en su conclusion. Suponga que la desviacion estandar 
permanece constante. 


10.23 Se afirma que un automovil se maneja en prome- 
dio mas de 20,000 kilometros por aiio. Para probar tal 
afirmacion, se pide a una muestra de 100 propietarios 
de automoviles que lleven un registro de los kilometros 
que recorran. ^Estarfa usted de acuerdo con esta afir- 
macion, si la muestra aleatoria mostro un promedio de 
23,500 kilometros y una desviacion estandar de 3900 
kilometros? Utilice un valor P en su conclusion. 

10.24 En el boletfn de la Asociacion Estadounidense 
del Corazon, Hypertension, invest igadores reportan que 
los individuos que practican la meditation trascendental 
(mt) bajan su presion sangufnea de forma significativa. 
Si una muestra aleatoria de 225 hombres practicantes 
de mt meditan 8.5 horas a la semana, con una desvia- 
cion estandar de 2.25 horas, ^esto sugiere que, en pro- 
medio, los hombres que utilizan la mt meditan mas de 
8 horas a la semana? Cite un valor P en su conclusion. 

10.25 Pruebe la hipotesis de que el contenido promedio 
de los envases de un lubricante especffico es de 10 litros, 
si los contenidos de una muestra aleatoria de 10 envases 
son 10.2, 9.7, 10.1, 10.3, 10.1, 9.8, 9.9, 10.4, 10.3 y 9.8 
litros. Utilice un nivel de significancia de 0.01 y suponga 
que la distribution del contenido es normal. 

10.26 De acuerdo con un estudio dietetico una inges- 
ta alta de sodio se puede relational’ con ulceras, cancer 
estomacal y migrana. El requerimiento humano de sal 
es de tan solo 220 miligramos diarios, el cual se rebasa 
en la mayorfa de las porciones individuales de cereales 
listos para comerse. Si una muestra aleatoria de 20 
porciones similares de cierto cereal tiene un contenido 
medio de 244 miligramos de sodio y una desviacion 
estandar de 24.5 miligramos, ^esto sugiere, en el nivel 
de significancia de 0.05, que el contenido promedio de 
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sodio para porciones individuals de tal cereal es mayor 
que 220 miligramos? Suponga que la distribution de 
contenidos de sodio es normal. 

10.27 Un estudio de la Universidad de Colorado en 
Boulder muestra ciue correr aumenta el porcentaje de la 
tasa metabolica de descanso (tmd) en mujeres ancianas. 
La tmd promedio de 30 ancianas corredoras fue 34.0% 
mas alta que la tmd promedio de 30 ancianas sedenta- 
rias, en tanto que las desviaciones estandar reportadas 
fueron de 10.5 y 10.2%, respectivamente. /,Hay un au- 
mento significativo en la tmd de las corredoras con res- 
pecto a las sedentarias? Suponga que las poblaciones se 
distribuyen de forma aproximadamente normal con va- 
rianzas iguales. Utilice un valor P en sus conclusiones. 

10.28 De acuerdo con el Chemical Engineering una 
propiedad importante de la fibra es su absorcion de 
agua. Se encuentra que el porcentaje promedio de ab- 
sorcion de 25 piezas de fibra de algodon que se seleccio- 
nan al azar es 20 con una desviacion estandar de 1.5. 
Una muestra aleatoria de 25 piezas de acetato dan un 
porcentaje promedio de 12 con una desviacion estan- 
dar de 1.25. Hay evidencia solida de que el porcentaje 
promedio de absorcion de la poblacion para la fibra de 
algodon es significativamente mayor que la media para 
el acetato. Suponga que el porcentaje de absorcion se 
distribuye de forma aproximadamente normal, y que 
las varianzas de la poblacion en el porcentaje de absor- 
cion para las dos fibras son las mismas. Utilice un nivel 
de significancia de 0.05. 

10.29 La experiencia indica que el tiempo para que 
los estudiantes de ultimo ano de preparatoria terminen 
un examen estandarizado es una variable aleatoria nor- 
mal con una media de 35 ininutos. Si a una muestra 
aleatoria de 20 estudiantes de ultimo ano de prepara- 
toria le toma un promedio de 33.1 minutos completar 
dicho examen con una desviacion estandar de 4.3 mi- 
nutos, con un nivel de significancia de 0.025, pruebe la 
hipotesis de que p = 35 minutos contra la alternativa 
de que p < 35 minutos. 

10.30 Una muestra aleatoria de tamaiio m = 25, que 
se toma de una poblacion normal con una desviacion 
estandar <ti = 5.2, tiene una media x\ = 81. Una se- 
gunda muestra aleatoria de tamaiio n -2 = 36, que se 
toma de una poblacion normal diferente con una des- 
viacion estandar 02 = 3.4, tiene una media X 2 = 76. 
Pruebe la hipotesis de que pi = P 2 contra la alternativa 
Pi ^ / J 2 ■ Cite un valor Pen su conclusion. 

10.31 Un fabricante afirma que la resistencia a la ten- 
sion promedio del hilo A excede la resistencia a la tension 
promedio del hilo B, en al menos 12 kilogramos. Para pro- 
bar esta afirmacion, se prueban 50 piezas de cada tipo 
de hilo bajo condiciones similares. El hilo tipo A tiene 
una resistencia a la tension promedio de 86.7 kilogra- 
mos con una desviacion estandar de 6.28 kilogramos; 
mientras que el hilo tipo B tiene una resistencia a la 
tension promedio de 77.8 kilogramos con una desviacion 
estandar de 5.61 kilogramos. Pruebe la afirmacion del 
fabricante usando un nivel de significancia de 0.05. 


10.32 El Amstat News (diciembre de 2004) lista los 
sueldos medios de profesores asociados de estadfstica 
en instituciones de investigation, en escuelas de hu- 
manidades y en otras instituciones en Estados Unidos. 
Suponga que una muestra de 200 profesores asociados 
de instituciones de investigation que tienen un sueldo 
promedio de $70,750 anuales con una desviacion estan- 
dar de $6000. Suponga tambien una muestra de 200 
profesores asociados de otros tipos de institution que 
tienen un sueldo promedio de $65,200 con una desvia- 
cion estandar de $5000. Pruebe la hipotesis de que el 
sueldo medio de profesores asociados en instituciones 
de investigation es $2000 mayor que los de los de otras 
instituciones. Utilice un nivel de significancia de 0.01. 

10.33 Se lleva a cabo un estudio para saber si el au- 
mento de la concentration de sustrato tiene un efecto 
apreciable sobre la velocidad de una reaction qufmica. 
Con una concentration de sustrato de 1.5 moles por 
litro, la reaction se realizo 15 veces, con una velocidad 
promedio de 7.5 micromoles por 30 minutos y una des- 
viacion estandar de 1.5. Con una concentration de sus- 
trato de 2.0 moles por litro, se realizan 12 reacciones, 
que dan una velocidad promedio de 8.8 micromoles por 
30 minutos y una desviacion estandar muestral de 1.2. 
/,Hay alguna razon para creer que este incremento en la 
concentration de sustrato ocasiona un aumento en la ve- 
locidad media de mas de 0.5 micromoles por 30 minu- 
tos? Utilice un nivel de significancia de 0.01 y suponga 
que las poblaciones se distribuyen de forma aproxima- 
damente normal con varianzas iguales. 

10.34 Se realiza un estudio para determinar si los te- 
mas de la materia en un curso de ffsica se comprenden 
mejor cuando se emplea un laboratorio en parte del 
curso. Se seleccionan estudiantes al azar para que par- 
ticipen, ya sea en un curso de tres semestres-hora sin 
laboratorio o en un curso de cuatro semestres-hora 
con laboratorio. En la section con laboratorio 11 estu- 
diantes tuvieron una calificacion promedio de 85 con 
una desviacion estandar de 4.7; mientras que en la sec- 
cion sin laboratorio 17 estudiantes tuvieron una califi- 
cacion promedio de 79 con una desviacion estandar de 
6.1. ^Dirfa usted que el curso con laboratorio aumenta 
la calificacion promedio hasta en 8 puntos? Utilice un 
valor P en su conclusion y suponga que las poblaciones 
se distribuyen de forma aproximadamente normal con 
varianzas iguales. 

10.35 Para indagar si un nuevo suero frena el desa- 
rrollo de la leucemia, se seleccionan 9 ratones, todos 
con una etapa avanzada de la enfermedad. Cinco ra- 
tones reciben el tratamiento y cuatro no. Los tiempos 
de supervivencia, en anos, a partir del momento en que 
comienza el experimento son los siguientes: 


Con tratamiento 

2.1 

5.3 

1.4 

4.6 0.9 

Sin tratamiento 

1.9 

0.5 

2.8 

3.1 


^Se puede decir en el nivel de significancia de 0.05 que 
el suero es efectivo? Suponga que las dos distribuciones 
se distribuyen de forma normal con varianzas iguales. 
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10.36 Una compama grande armadora de automovi- 
les trata de decidir si compra llantas de la marca A o 
de la B para sus modelos nuevos. Para ayudar a tomar 
una decision, se realiza un experimento en donde se 
usan 12 llantas de cada marca. Las llantas se utilizan 
hasta que se acaban. Los resultados son 

Marca A: x\ = 37,900 kilometros, 
si = 5,100 kilometros, 

Marca B: x\ — 39,800 kilometros, 

S 2 = 5,900 kilometros. 

Pruebe la hipotesis de que no hay diferencia en el des- 
gaste promedio de las 2 marcas de llantas. Suponga que 
las poblaciones se distribuyen de forma aproximada- 
mente normal con varianzas iguales. Use un valor P. 

10.37 En el ejercicio 9.42 de la pagina 298, pruebe la 
hipotesis de que los camiones compactos Volkswagen, 
en promedio, exceden a los camiones compactos Toyo- 
ta, equipados de forma similar, en cuatro kilometros 
por litro. Utilice un nivel de significancia de 0.10. 

10.38 Un investigador de la ucla afirma que la vida 
promedio de un raton se puede prolongar hasta 8 me- 
ses mas cuando las calorlas en su dieta se reducen en 
aproximadamente 40% desde el momento en que se 
destetan. Las dietas restringidas se enriquecen a nive- 
les normales con vitaminas y protema. Suponga que se 
alimenta a una muestra aleatoria de 10 ratones con una 
dieta normal y tiene una vida promedio de 32.1 meses 
con una desviacion estandar de 3.2 meses; mientras que 
una muestra aleatoria de 15 ratones se alimenta con la 
dieta restringida y viven un promedio de 37.6 meses 
con una desviacion estandar de 2.8 meses. Con un nivel 
de significancia de 0.05 pruebe la hipotesis de que la 
vida promedio de los ratones con esta dieta restringida 
aumenta 8 meses contra la alternativa de que el au- 
mento es menor que 8 meses. Suponga que las distribu- 
ciones de las vidas con las dietas regular y restringida 
son aproximadamente normales con varianzas iguales. 

10.39 Los siguientes datos representan los tiempos 
de duration de peli'culas producidas por 2 compafuas 
cinematograficas : 

Companla Tiempo (minutos) 

1 102 86 9s 109 92 

2 81 165 97 134 92 87 114 

Pruebe la hipotesis de que el tiempo de duration pro- 
medio de las pelfculas producidas por la compama 2 ex- 
cede el tiempo promedio de duration de las que produce 
la companla 1 en 10 minutos, contra la alternativa uni- 
lateral de que la diferencia es de menos de 10 minutos. 
Utilice un nivel de significancia de 0.1 y suponga que 
las distribuciones de los tiempos son aproximadamente 
normales con varianzas iguales. 

10.40 En un estudio realizado en el Instituto Politec- 
nico y Universidad Estatal de Virginia, se compararon 


los niveles de acido ascorbico en plasma en mujeres em- 
barazadas fumadoras contra las no fumadoras. Para el 
estudio se seleccionaron 32 mujeres en los ultimos tres 
meses de embarazo, libres de padecimientos importan- 
tes y con edades de entre 15 y 32 anos. Antes de tomar 
las muestras de 20 ml de sangre, a las participantes se 
les solicito ir en ayunas, no consumir sus complemen- 
tos vitamlnicos y evitar comidas con alto contenido de 
acido ascorbico. De las muestras de sangre se determi- 
naron los siguientes valores, en miligramos por 100 mi- 
lilitros, de acido ascorbico en plasma de cada mujer: 

Valores de acido ascorbico en plasma 

No fumadoras Fumadoras 


0.97 

1.16 

0.48 

0.72 

0.86 

0.71 

1.00 

0.85 

0.98 

0.81 

0.58 

0.68 

0.62 

0.57 

1.18 

1.32 

0.64 

1.36 

1.24 

0.98 

0.78 

0.99 

1.09 

1.64 

0.90 

0.92 


0.74 

0.78 


0.88 

1.24 


0.94 

1.18 



^Existe suficiente evidencia para concluir que hay una 
diferencia entre los niveles de acido ascorbico en plas- 
ma entre fumadoras y no fumadoras? Suponga que los 
dos conjuntos de datos provienen de poblaciones nor- 
males con varianzas diferentes. Utilice un valor P. 

10.41 El Departamento de Zoologla del Instituto Po- 
litecnico y Universidad Estatal de Virginia llevo a cabo 
un estudio, para determinar si hay una diferencia signi- 
ficativa en la densidad de organismos en dos estaciones 
diferentes ubicadas en Cedar Run, un rio secundario 
que se localiza en la cuenca del ri'o Roanoke. El drena- 
je de una planta de tratamiento de aguas negras y el 
sobreflujo del estanque de sedimentation de la Federal 
Mogul Corporation entran al flujo cerca del nacimiento 
del rlo. Los siguientes datos dan las medidas de densi- 
dad, en numero de organismos por metro cuadrado, en 
las dos diferentes estaciones colectoras: 


Numero de organismos por metro cuadrado 


Estacion 

1 


Estacion 2 

5030 

4980 

2800 

2810 

13,700 

11,910 

4670 

1330 

10,730 

8130 

6890 

3320 

11,400 

26,850 

7720 

1230 

860 

17,660 

7030 

2130 

2200 

22,800 

7330 

2190 

4250 

1130 



15,040 

1690 




^Con un nivel de significancia de 0.05 podemos con- 
cluir que son iguales las densidades promedio en las dos 
estaciones? Suponga que las observaciones provienen 
de poblaciones normales con varianzas diferentes. 

10.42 Cinco muestras de una sustancia ferrosa se usan 
para determinar si hay una diferencia entre un analisis 
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qui'mico de laboratorio y un analisis de fluorescencia 
de rayos X del contenido de hierro. Cada muestra se 
divide en dos submuestras y se aplican los dos tipos de 
analisis. A continuation se presentan los datos codifica- 
dos que muestran los analisis de contenido de hierro: 



Muestra 

Analisis 

1 

2 3 

4 

5 

Rayos X 

2.0 

2.0 2.3 

2.1 

2.4 

Quimica 

2.2 

1.9 2.5 

2.3 

2.4 


Suponiendo que las poblaciones son normales, pruebe 
con un nivel de significancia de 0.05 si los dos metodos 
de analisis dan, en promedio, el mismo resultado. 

10.43 El administrador de una companfa de taxis 
trata de decidir si el uso de llantas radiales en lugar 
de llantas regulares cinturadas mejora la econonn'a de 
combustible. Se equipan 12 automoviles con llantas 
radiales y se manejan durante un recorrido de prue- 
ba preestablecido. Sin cambiar a los conductores, los 
mismos automoviles se equipan con llantas regulares 
cinturadas y se manejan otra vez en el recorrido de 
prueba. El consumo de gasolina, en kilometros por li- 
tro, se registro de la siguiente manera: 

Kilometros por litro 

Automovil Llantas radiales Llantas cinturadas 


1 

4.2 

4.1 

2 

4.7 

4.9 

3 

6.6 

6.2 

4 

7.0 

6.9 

5 

6.7 

6.8 

6 

4.5 

4.4 

7 

5.7 

5.7 

8 

6.0 

5.8 

9 

7.4 

6.9 

10 

4.9 

4.7 

11 

6.1 

6.0 

12 

5.2 

4.9 


^Podemos concluir que los automoviles equipados con 
llantas radiales dan una econonn'a de combustible mejor 
que aquellos equipados con llantas cinturadas? Supon- 
ga que las poblaciones se distribuyen normalmente. Uti- 
lice un valor P en su conclusion. 

10.44 En el ejercicio 9.88 de la pagina 315, utilice la 
distribution t para probar la hipotesis de que la dieta 
reduce el peso de un individuo en 4.5 kilogramos, en 
promedio, contra la hipotesis alternativa de que la di- 
ferencia media en peso es menor que 4.5 kilogramos. 
Utilice un valor P. 

10.45 De acuerdo con informes publicados, el ejer- 
cicio bajo condiciones de fatiga altera los mecanismos 
que determinan el desempeno. Se realizo un experi- 
mento donde se usaron 15 estudiantes universitarios 
hombres, entrenados para realizar un movimiento hori- 
zontal continuo del brazo, de derecha a izquierda, des- 
de un microinterruptor hasta una barrera, golpeando 
sobre la barrera en coincidencia con la llegada de una 


manecilla del reloj a la position de las 6 en punto. Se 
registra el valor absoluto de la diferencia entre el tiem- 
po, en milisegundos, que toma golpear sobre la barrera 
y el tiempo para que la manecilla alcance la position de 
las 6 en punto (500 mseg). Cada participante ejecuta la 
tarea cinco veces en condiciones sin fatiga y con fatiga, 
y se registraron las sumas de las diferencias absolutas 
para las cinco ejecuciones como sigue: 


Diferencias absolutas de tiempo 

Sujeto 

Sin fatiga 

Con fatiga 

1 

158 

91 

2 

92 

59 

3 

65 

215 

4 

98 

226 

5 

33 

223 

6 

89 

91 

7 

148 

92 

8 

58 

177 

9 

142 

134 

10 

117 

116 

11 

74 

153 

12 

66 

219 

13 

109 

143 

14 

57 

164 

15 

85 

100 

Un aumento en las diferencias medias absolutas de tiem- 
po cuando la tarea se ejecuta bajo condiciones de fatiga 
apoyaria la afirmacion de que el ejercicio, en condiciones 

de fatiga, altera el mecanismo que 

determina el desem- 

pefio. Suponiendo de que las poblaciones se distribuyen 
normalmente, pruebe tal afirmacion. 

10.46 En un estudio realizado por el Departamento 
de Nutrition Humana y Alimentos del Instituto Poli- 
tecnico y Universidad Estatal de Virginia, se registra- 
ron los siguientes datos acerca de la comparacion de re- 
siduos de acido sorbico, en partes por millon, en jamon 
inmediatamente despues de sumergirlo en una solution 
de acido y despues de 60 dias de almacenamiento: 


Residuos de acido sorbico en jamon 


Antes del 

Despues del 

Rebanada 

almacenamiento ; 

almacenamiento 

1 

224 

116 

2 

270 

96 

3 

400 

239 

4 

444 

329 

5 

590 

437 

6 

660 

597 

7 

1400 

689 

8 

680 

576 

Si se supone 

que las poblaciones 

se distribuyen nor- 


malmente, /.hay suficiente evidencia, al nivel de signi- 
ficancia de 0.05, para decir que la duration del almace- 
namiento influye en las concentraciones residuales de 
acido sorbico? 


10.47 ^Que tan grande se requiere que sea la muestra 
del ejercicio 10.20, si la potencia de nuestra prueba 
debe ser 0.90 cuando la media real es 5.20? Suponga 
que <t = 0.24. 
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10.48 Si la distribution del tiempo de vida en el ejer- 
cicio 10.21 es aproximadamente normal, ^que tan gran- 
de se requiere que sea una muestra, para que la proba- 
bilidad de cometer un error tipo II sea 0.1 cuando la 
media real es 35.9 rneses? Suponga que a = 5.8 meses. 

10.49 iQue tan grande se requiere que sea la muestra 
del ejercicio 10.22, si la potencia de nuestra prueba 
debe ser 0.95 cuando la estatura promedio real difiere 
de 162.5 en 3.1 centfmetros? 

10.50 iQue tan grandes deberfan ser las muestras del 
ejercicio 10.31, si la potencia de nuestra prueba debe 
ser 0.95 cuando la diferencia real entre los tipos de hilo 
A y B es 8 kilogramos? 

10.51 ^Que tan grande se requiere que sea la muestra 
del ejercicio 10.24 si la potencia de nuestra prueba sera 

0. 8 cuando el tiempo medio real de meditation exceda 
el valor hipotetico en 1.2 a'l Utilice a = 0.05. 

10.52 Se considera una prueba t de nivel a = 0.05 
para probar 

H 0 : p = 14, 

Hi: p ± 14. 

1, Que tamano de la muestra se necesita para que la 
probabilidad sea 0.1 de no rechazar de manera erronea 
Hq, cuando la media poblacional real difiera de 14 en 
0.5? A partir de una muestra preliminar estimamos 
que a es 1.25. 

10.53 Se llevo a cabo un estudio en el Departamento 
de Veterinaria del Instituto Politecnico y Universidad 
Estatal de Virginia, para determinar si la “resistencia” 
de una herida de incision quirurgica resulta afectada 
por la temperatura del bisturf. Se utilizaron 8 perros en 
el experimento. La incision se realizo en el abdomen de 
los animales. Se aplicaron una incision “caliente” y una 
“frfa” a cada perro, y se midio la resistencia. Los datos 
que resultaron aparecen abajo. 

a) Escriba una liipotesis apropiada para determinar si 
hay una diferencia significativa en la resistencia en- 
tre las incisiones caliente y frfa. 

b) Pruebe la hipotesis mediante el uso de una prueba t 
pareada. Utilice un valor Pen su conclusion. 


Perro 

Bisturf Resistencia 

1 

Caliente 

5120 

1 

Frio 

8200 

2 

Caliente 

10000 

2 

Frfo 

8600 

3 

Caliente 

10000 

3 

Frio 

9200 

4 

Caliente 

10000 

4 

Frfo 

6200 

5 

Caliente 

10000 

5 

Frfo 

10000 

6 

Caliente 

7900 

6 

Frio 

5200 

7 

Caliente 

510 

7 

Frfo 

885 

8 

Caliente 

1020 

8 

F rfo 

460 

10.54 Se utilizaron 9 sujetos en un experimento para 

determinar si una 

atmosfera que implic.a la exposition a 

monoxido de carbono tiene un impacto sobre la capaci- 
dad de respiration. Los datos fueron recolectados por el 
personal del Departamento de Salud y Education Ffsica 
del Instituto Politecnico y Universidad Estatal de Vir- 
ginia. Los datos se analizaron en el Centro de Consulta 
Estadfstica en Hokie Land. Los sujetos se colocaron en 
camaras de respiration, una de las cuales contenfa una 
alta concentration de CO. Se realizaron varias medi- 
ciones de respiration para cada sujeto en cada camara. 
Los sujetos se colocaron en las camaras de respiration 

en una secuencia 

aleatoria. Los siguientes datos dan la 

frecuencia respiratoria en numero 

de respiraciones por 

minuto. Realice una prueba unilateral de la liipotesis 

de que la frecuencia respiratoria 

media es la misma 

para los dos ambientes. Utilice a 

= 0.05. Suponga que 

la frecuencia respiratoria es aproximadamente normal 

Sujeto 

Con CO 

Sin CO 

1 

30 

30 

2 

45 

40 

3 

26 

25 

4 

25 

23 

5 

34 

30 

6 

51 

49 

7 

46 

41 

8 

32 

35 

9 

30 

28 


10.11 Una muestra: Prueba sobre una sola proporcion 

Las pruebas de hipotesis que se relacionan con proporciones se requieren en muchas 
areas. Seguramente el politico se interesara en conocer que fraction de votantes lo 
favorecera en la siguiente election. Todas las empresas manufactureras se preocupan 
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por la proportion de artfculos defectuosos cuando se realiza un embarque. El jugador 
depende de un conocimiento de la proportion de resultados que cree favorables. 

Consideraremos el problema de probar la hipotesis de que la proporcion de exitos 
en un experimento binomial es igual a algun valor especifico. Es decir, probaremos 
la hipotesis nula Hq que p = po , donde p es el parametro de la distribucion binomial. 
La hipotesis alternativa puede ser una de las alternativas unilaterales o bilaterales 
usuales: 


p < Po, P > Po, o p± po- 

La variable aleatoria adecuada sobre la que basamos nuestro criterio de decision 
es la variable aleatoria binomial X\ aunque tambien podnamos usar solo el esta- 
di'stico p = X/n. Los valores de X que estan lejos de la media p = npo conduciran 
al rechazo de la hipotesis nula. Como X es una variable binomial discreta, es poco 
probable que se pueda establecer una region critica, cuyo tamano sea exactamente 
igual a un valor prescrito de a. Por tal razon es preferible, al tratar con muestras 
pequehas, basar nuestra decision en valores P. Para probar la hipotesis 

Ho- P = Po, 

Hr- p < po, 

utilizamos la distribucion binomial para calcular el valor P 

P = P(X < x cuando p = po)- 

El valor x es el numero de exitos en nuestra muestra de tamano n. Si este valor P 
es menor que o igual a a, nuestra prueba es significativa en el nivel a y rechazamos 
Ho a favor de H±. De manera similar, para probar la hipotesis 

H 0 - P = Po, 

Hp- p > po, 

en el nivel de significancia a, calculamos 

P = P(X > x cuando p = p 0 ) 

y rechazamos Hq a favor de H \ si este valor Pes menor que o igual a a. Finalmente, 
para probar la hipotesis 

Ho- P = Po, 

Hi: p ^po, 

al nivel de significancia a, calculamos 

P = 2 P(X < x cuando p = po) si x < npo, o 

P = 2 P(X > x cuando p = po) si x > npo 

y se rechaza Ho a favor de Hi, si el valor P calculado es menor que o igual a a. 

Los pasos para probar una hipotesis nula acerca de una proporcion contra varias 
alternativas usando las probabilidades binomiales de la tabla A.l son los siguientes: 
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Prueba de 
una proportion: 
muestras pequenas 


Ejemplo 10.10: 


Solucion: 


Ejemplo 10.11: 


1 . H 0 : p = po- 

2. Una de las alternativas Hp. p < po , p > po, o p po- 

3. Elija un nivel de significancia igual a a. 

4. Estadi'stico de prueba: variable binomial X con p = po- 

5. Calculos: Encuentre x, el numero de exitos, y calcule el valor Padecuado. 

6. Decision: Obtenga las conclusiones apropiadas basadas en el valor P. 


Un constructor afirma que se instalan bombas de calor en 70% de todas las casas 
que se construyen actualmente en la ciudad de Richmond, Virginia. ^Estarfa de 
acuerdo con esta afirmacion, si una encuesta aleatoria de casas nuevas en esta ciu- 
dad demuestra que 8 de 15 tienen instaladas bombas de calor? Utilice un nivel de 
significancia de 0.10. 

1 . H 0 :p= 0.7. 

2. Hp p=f= 0.7. 

3. a = 0.10. 

4. Estadi'stico de prueba: Variable binomial X con p = 0.7 y n = 15. 

5. Calculos: x = 8 y npo = (15)(0.7) = 10.5. Por lo tanto, de la tabla A.l, el valor 
P calculado es 

8 

P = 2 P(X < 8 cuando p = 0.7) = 2 ^ b(x; 15, 0.7) = 0.2622 > 0.10. 

a -=0 

6. Decision: No rechace Hq. Concluya que no hay razon suficiente para dudar de la 
afirmacion del constructor. 

En la section 5.3, vimos que las probabilidades binomiales se obtienen de la 
formula binomial real o de la tabla A.l cuando n es pequena. Para n grande, se 
requieren procedimientos de aproximacion. Cuando el valor hipotetico po esta muy 
cercano a 0 o a 1, se puede utilizar la distribution de Poisson con parametro p = 
npo- Sin embargo, la aproximacion de la curva normal, con parametros p = npo y 
o 2 = npoqo, por lo general, se prefiere para n grande y es muy precisa, en tanto que 
Po no este extremadamente cerca de 0 o de 1. Si utilizamos la aproximacion normal, 
el valor z para probar p — p 0 esta dado por 

z _ x - npp _ p-po 
V n Po<lo a JpoQo/n 

que es un valor de la variable normal estandar Z. De aquf que, para una prueba de 
dos colas al nivel de significancia a, la region crftica es z < — z a /2 o z > z a / 2 . Para 
la alternativa unilateral p < po, la region crftica es z < —z a , y para la alternativa p 
> po , la region crftica es z > z a . 


Un medicamento que se prescribe comunmente para aliviar la tension nerviosa se 
considera que es efectivo en tan solo 60%. Resultados experimentales con un nuevo 
farmaco que se suministra a una muestra aleatoria de 100 adultos que padecen de 
tension nerviosa demuestran que 70 tuvieron alivio. ^Esta es evidencia suficiente 
para concluir que el nuevo medicamento es superior a la que se prescribe actualmen- 
te? Utilice un nivel de significancia de 0.05. 
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Solucion: 1. Hy. p = 0.6. 

2 . Hp. p > 0.6. 

3 . a = 0.05. 

4 . Region crftica: z > 1.645. 

5 . Calculos: x = 70, n = 100, p = 70/100 = 0.7, y 

z = 0-7 ~0-6 == = 2 Q4 p = p , z 2.040 < 0.0207. 

y/ (0.6)(0.4)/100 

6. Decision: Rechace Hq y concluya que el nuevo farmaco es superior. 


J 


10.12 Dos muestras: Pruebas sobre dos proporciones 

A menudo hay situaciones clonde cleseamos probar la hipotesis de que dos propor- 
ciones son iguales. Por ejemplo, podemos tratar de mostrar evidencia de que la 
proporcion de doctores que son pediatras en una entidad es igual a la proportion de 
pediatras en otra entidad. Quizas un individuo decida dejar de fumar solo si se con- 
vence de que la proporcion de fumadores con cancer pulmonar excede la proporcion 
de no fumadores con ese tipo de cancer. 

En general, deseamos probar la hipotesis nula de que dos proporciones, o pa- 
rametros binomiales, son iguales. Es decir, probamos p\ = P 2 contra una de las 
alternativas pi < P 2 , Pi > P 2 i opi / P 2 ■ Desde luego, esto es equivalente a probar la 
hipotesis nula de que p\ — P 2 = 0 contra una de las alternativas p\ — P 2 < 0, p\ — P 2 
> 0 o pi — p 2 ^ 0. El estadistico sobre el que basamos nuestra decision es la variable 
aleatoria P± — P 2 - Se seleccionan al azar muestras independientes de tamaho n\ y 
ri 2 de dos poblaciones binomiales y se calcula la proporcion de exitos P\y P 2 para 
las dos muestras. 

En nuestra construction de intervalos de confianza para p\ y P 2 senalamos, para 
ni y ri 2 suficientemente grandes, que el estimador puntual P 1 menos P 2 estaba dis- 
tribuido de forma aproximadamente normal con media 

dp 1 -P 2 =Pl~P2 


y varianza 


2 = Pi£i P 2 Q 2 

° P1-P2 ni n2 

Por lo tanto, nuestra(s) region(es) critica(s) se puede(n) establecer usando la varia- 
ble normal estandar 


z = (A - h) - (pi - P2) 

A jpiqi/ni +p 2 q 2 /n 2 

Cuando Hq, es verdadera, podemos sustituir pi = P 2 = P y qi = q 2 = q (donde p y q 
son los valores comunes) en la formula anterior para Z y obtener la forma 

^ A - A 

y/pq[l/ n i + l/n 2 ) 
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Ejemplo 10.12: 


Solucion: 


Para calcular un valor de Z, no obstante, debemos estimar los parametros p y q que 
aparecen en el radical. A1 combinar los datos de ambas muestras, la estimation 
combinada de la proportion p es 

X\ + x 2 

P = ; , 

n i + n 2 

donde x\ y x 2 son el numero de exitos en cada una de las dos muestras. A1 sustituir 
p por p y q = 1 — p por q , el valor z para probar pi — p 2 se determina a partir 
de la formula 


_ Pi ~ P2 

VPQ( l / n i + V n 2) 

Las regiones crtticas para las hipotesis alternativas adecuadas se establecen como 
antes, utilizando puntos crtticos de la curva normal estandar. De aqut, para la al- 
ternativa pi =/ p 2 con un nivel de significancia a, la region critica es z < —z a / 2 o 
2 > z a / 2 . Para una prueba donde la alternativa sea p\ < p 2 , la region critica sera 2 < 
— z a \ y cuando la alternativa sea p\ > p 2 , la region critica sera z > z a . 


Se tomara el voto entre los residentes de una ciudad y el condado circundante, para 
determinar si se debe construir la planta quimica que se propone. El lugar de cons- 
truccion esta dentro de los limites de la ciudad y, por esa razon, muchos votantes del 
condado consideran que la propuesta pasara debido a la gran proporcion de votantes 
que favorecen la construction. Para determinar si hay una diferencia significativa 
en la proporcion de votantes de la ciudad y votantes del condado que favorecen la 
propuesta, se realiza una encuesta. Si 120 de 200 votantes de la ciudad favorecen 
la propuesta y 240 de 500 residentes del condado tambien lo hacen, ^estaria usted de 
acuerdo en que la proporcion de votantes de la ciudad que favorecen la propuesta es 
mayor que la proporcion de votantes del condado? Utilice un nivel de significancia 
de 0.025. 

Sean pi y p 2 las proporciones reales de votantes en la ciudad y el condado, respecti- 
vamente, que favorecen la propuesta. 

1. H 0 : px = p 2 . 

2. Hp pi > p 2 . 

3. a = 0.05. 

4. Region critica: z > 1.645. 

5. Calculos: 


Xl 

P l = — = 


P = 


n i 
X\ + x 2 


120 * x 2 

= 0.60, p 2 — — — 

200 ’ n 2 


240 

500 


= 0.48, 


120 + 240 


m + n 2 200 + 500 


= 0.51. 


Por lo tanto, 


0.60 - 0.48 


v / (0.51)(0.49)(l/200+ 1/500) 
P = P(Z > 2.9) = 0.0019. 


= 2.9, 


y 


6. Decision: Rechace H 0 y este de acuerdo en que la proporcion de votantes de la 
ciudad a favor de la propuesta es mayor que la proporcion de votantes del con- 
dado. 
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Ej ercicios 

10.55 Un experto en marketing de una companfa fa- 
bricante de pasta considera que 40% de los amantes de 
la pasta prefieren la lasagna. Si 9 de 20 amantes de la 
pasta eligen lasagna sobre otras pastas, /que se puede 
concluir acerca de la afirmacion del experto? Utilice un 
nivel de significancia de 0.05. 

10.56 Suponga que, en el pasado, 40% de todos los 
adultos favoreci'an la pena capital. /Tenemos razon 
para creer que la proporcion de adultos que actualmen- 
te favorecen la pena capital ha aumentado si, en una 
muestra aleatoria de 15 adultos, 8 estan a favor de la 
pena capital? Utilice un nivel de significancia de 0.05. 

10.57 Se lanza 20 veces una moneda, con un resulta- 
do de 5 caras. /lilsta es suficiente evidencia para recha- 
zar la hipotesis de que la moneda esta balanceada, a 
favor de la alternativa de que las caras ocurren menos 
de 50% de las veces? Cite un valor P. 

10.58 Se cree que al menos 60% de los residentes de 
cierta area favorecen un demanda de anexion de una 
ciudad vecina. /.Que conclusion extraerfa, si solo 110 
en una muestra de 200 votantes estan a favor de la 
demanda? Utilice un nivel de significancia de 0.05. 

10.59 Una companfa petrolera afirma que un quinto 
de las casas en cierta ciudad se calientan con petroleo. 
/Tenemos razon para creer que menos de 1/5 se calien- 
tan con petroleo si, en una muestra aleatoria de 1000 
casas en esta ciudad, se encuentra que 136 se calientan 
con petroleo? Utilice un valor P en su conclusion. 

10.60 En cierta universidad se estima que a lo mas 
25% de los estudiantes van en bicic.leta a la escuela. 
/lilsta parece ser una estimation valida si, en una mues- 
tra aleatoria de 90 estudiantes universitarios, se en- 
cuentra que 28 van en bicicleta a la escuela? Utilice un 
nivel de significancia de 0.05. 

10.61 Se considera un nuevo dispositivo de radar 
para cierto sistema de misiles de defensa. El sistema 
se verifica experiment ando con aeronaves reales, en 
las cuales se Simula una situation de muerte o de sin 
muerte. Si en 300 pruebas ocurren 250 muertes, acep- 
te o rechace, con un nivel de significancia de 0.04, la 
afirmacion de que la probabilidad de una muerte con 
el sistema nuevo no excede la probabilidad de 0.8 del 
sistema existente. 

10.62 En un experimento de laboratorio controlado, 
cientfficos de la Universidad de Minnesota descubrieron 
que 25% de cierta camada de ratas sujetas a una dieta 
de 20% de grano de cafe, y luego forzadas a consumir 


un poderoso qufmico causante de cancer, desarrollaron 
tumores cancerosos. /Tendrfamos razones para creer 
que la proporcion de ratas que desarrollan tumores 
cuando se sujeta a esta dieta aumenta, si el experi- 
mento se repite y 16 de 48 ratas desarrollan tumores? 
Utilice un nivel de significancia de 0.05. 

10.63 En un estudio para estimar la proporcion de 
residentes de cierta ciudad y sus suburbios que estan 
a favor de la construction de una planta de energfa 
nuclear, se encuentra que 63 de 100 residentes urbanos 
favorecen la construction, mientras que solo 59 de 125 
residentes suburbanos la favorecen. /.Hay una diferen- 
cia significativa entre la proporcion de residentes urba- 
nos y suburbanos que favorecen la construction de la 
planta nuclear? Utilice un valor P. 

10.64 En un estudio sobre la fertilidad de mujeres 
casadas conducido por Martin O’Connell y Carolyn C. 
Rogers para la Ohcina de Censos en 1979, se seleccio- 
naron al azar dos grupos de esposas con edades de 25 
a 29 afios y sin hijos, y a cada una se le pregunto si a 
final de cuentas planeaba tener un hijo. Se selecciono 
un grupo entre las mujeres con menos de dos anos de 
casadas y otro entre las que tenfan cinco anos de casa- 
das. Suponga que 240 de 300 con menos de dos anos de 
casadas planean tener un hijo algun dfa, comparadas 
con 288 de las 400 con cinco anos de casadas. /Pode- 
mos concluir que la proporcion de mujeres con menos 
de dos anos de casadas que planean tener hijos es signi- 
ficativamente mayor que la proporcion con cinco anos 
de casadas? Utilice un valor P. 

10.65 Una comunidad urbana quiere demostrar que 
la incidencia de cancer de seno es mayor en ella que en 
un area rural vecina. (Se encontro que los niveles de 
pcb son mas altos en el suelo de la comunidad urbana.) 
Si se encuentra que 20 de 200 mujeres adultas en la 
comunidad urbana tienen cancer de seno y 10 de 150 
mujeres adultas en la comunidad rural tienen cancer de 
seno, zpodrfamos concluir con un nivel de significancia 
de 0.05 que este tipo de cancer prevalece mas en la 
comunidad urbana? 

10.66 En un invierno con epidemia de gripe, una 
companfa farmaceutica bien conocida estudio a 2000 
bebes, para determinar si el nuevo medicamento de la 
companfa era eficaz despues de dos dfas. Entre 120 be- 
bes que tenfan gripe y se les suministro el medicamen- 
to, 29 se curaron dentro de dos dfas. Entre 280 bebes 
que tenfan gripe pero que no recibieron el farmaco, 56 
se curaron dentro de dos dfas. /Hay alguna indication 
significativa que apoye la afirmacion de la companfa de 
la efectividad del medicamento? 
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10.13 Pruebas de una y dos muestras referentes a varianzas 

En esta seccion nos referimos a la prueba de hipotesis relacionada con varianzas 
o desviaciones estandar poblacionales. Las pruebas de una y dos muestras sobre 
varianzas en realidad no son dificiles de motivar. Los ingenieros y los cientfficos 
constantemente se enfrentan a estudios donde se les pide demostrar que las medicio- 
nes que tienen que ver con productos o procesos caen dentro de las especificaciones 
que fijan los consumidores. Las especificaciones a menudo se cumplen si la varianza 
del proceso es suficientemente pequeiia. La atencion tambien se concentra en expe- 
rimentos comparativos entre metodos o procesos, donde la reproductibilidad o va- 
riabilidad inherentes se cleben comparar de manera formal. Ademas, con frecuencia 
se aplica una prueba que compara dos varianzas antes de llevar a cabo una prueba 
t sobre dos medias. El objetivo es determinar si se viola la suposicion de varianzas 
iguales. 

Primero consideremos el problema de probar la hipotesis nula H$ de que la va- 
rianza poblacional ci 1 es igual a un valor especifico cr 0 , contra una de las alternativas 
comunes a 2 < erg, a 1 > <j 2 q o a 2 ^ a 0 . El estadistico apropiado sobre el que basamos 
nuestra decision es el mismo estadistico chi cuadrado del teorema 8.4 que se utiliza 
en el capitulo 9 para construir un intervalo de confianza para a 2 . Por lo tanto, si 
suponemos que la distribucion de la poblacion que se muestrea es normal, el valor 
de chi cuadrada para probar a 2 = a g. esta dado por 

2 (n — l)s 2 
X = 2 . 

°0 

donde n es el tamano de la muestra, s 2 es la varianza muestral y Ug es el valor de 
a 2 dado por la hipotesis nula. Si Hq es verdadera, y 2 es un valor de la distribucion 
chi cuadrada con v = n — 1 grados de libertad. De aqui que, para una prueba de 
dos colas en el nivel de significancia a, la region critica es y 2 < y i - a /2 o x 2 > Xa/ 2 - 
Para la alternativa unilateral a 2 < erg, la region critica es y 2 < y 1 _ a ; y para la al- 
ternativa unilateral a 2 > erg , la region critica es y 2 > y a . 

Robustez de la prueba y 2 para la suposicion de normalidad 

El lector puede percibir que varias pruebas dependen, al menos en teoria, de la su- 
posicion de normalidad. En general, muchos procedimientos en estadistica aplicada 
tienen fundamentos teoricos que dependen de la distribucion normal. Estos proce- 
dimientos varian en el grado de su dependencia de la suposicion de la normalidad. 
Un procedimiento que es razonablemente insensible a la suposicion se denomina 
procedimiento robusto (es decir, robusto para la normalidad). La prueba y 2 
sobre una sola varianza no es robusta en absoluto hacia la normalidad (es decir, 
el exito practico del procedimiento depende de la normalidad). Como resultado, el 
valor P calculado puede ser apreciablemente diferente del valor P real si la pobla- 
cion muestreada no es normal. En realidad, resulta bastante factible que un valor P 
estadfsticamente significativo quiza no sea una verdadera senal de H\\ a <to sino, 
mas bien, que un valor significativo puede ser un resultado de la transgresion de 
las suposiciones de normalidad. Por lo tanto, el analista se deberia aproximar con 
precaucion al uso de esta prueba y 2 especifica. 


Ejemplo 10.13:1 Un fabricante de baterias para automovil afirma que la duracion de sus baterias se 
distribuye de forma aproximadamente normal con una desviacion estandar igual a 
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Solucion: 


0.9 anos. Si una muestra aleatoria de 10 de tales baterias tiene una desviacion es- 
tandar de 1.2 anos, ^considera que o > 0.9 anos? Utilice un nivel de significancia de 
0.05. 

1. H 0 : cr 2 = 0.81. 

2. Hp a 2 > 0.81. 

3. a = 0.05. 

4 . Region critica: De la figura 10.19 vemos que se rechaza la hipotesis nula cuando 

X 2 > 16.919, donde y 2 = ( n ~P s con v = 9 grados de libertad. 

<J 0 



Figura 10.19: Region critica para la hipotesis alternativa cr > 0.9. 


5 . Calculos: s 2 = 1.44, n = 10 y 


,2 (9)(1.44) 

0.81 


16.0, 


P« 0.07. 


6. Decision: El estadistico y 2 n0 es significativo en el nivel 0.05. Sin embargo, con 
base en el valor Pde 0.07, hay alguna evidencia de que a > 0.9. 

Consideremos ahora el problema de probar la igualdad de las varianzas a 2 y a\ 
de dos poblaciones. Esto es, probaremos la hipotesis nula Hq de que a\ = cr 2 contra 
una de las alternativas usuales 


2^2 2^2 2/2 
a l ^ > <J 2t ° r <J 2- 

Para muestras aleatorias independientes de tamaho n\ y ri 2 , respectivamente, de las 
dos poblaciones, el valor / para probar a\ = a\ es la razon 


/ = 


s 


2 

1 


S 


2 ’ 
2 


donde s 2 y s \ son las varianzas calculadas de las dos muestras. Si las dos poblaciones 
se distribuyen de forma aproximadamente normal y la hipotesis nula es verdadera, 
de acuerdo con el teorema 8.8 la razon / = s\/ s\ es un valor de la distribucion F con 
v\ = ni — 1 y v-i = ni — 1 grados de libertad. Por lo tanto, las regiones criticas de 
tamano a que corresponden a las alternativas unilaterales o\ < o\y o\> <j\ son, 
respectivamente, / < V 2 ) y / > f a (v 1 , V 2 ). Para la alternativa bilateral a\ 

^ erg, la region critica es / < /i_ a / 2 (^i, v 2 ) o f > f a / 2 (ui, v 2 )- 
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Ejemplo 10.14:1 A1 probar la diferencia en el desgaste abrasivo de los dos materiales del ejemplo 
10.6, supusimos que eran iguales las dos varianzas poblacionales desconocidas. ^Se 
justifica tal suposicion? Utilice un nivel de significancia de 0.10. 

Solucion: Sean <j\ y o\ las varianzas poblacionales para el desgaste abrasivo del material 1 y 
del material 2, respectivamente. 

i zu 2 2 

1. H 0 : <j x = a 2 . 

2. Hy. a \ yl u\. 

3. a = 0.10. 


4. Region critica: De la figura 10.20, sabemos que / 0 . 05 (H) 9) 
teorema 8.7, 


/ 0 . 95 (H) 9) 


1 

/o.05(9, 11) 


0.34. 


3.11 y, usando el 


Por lo tanto, se rechaza la hipotesis nula cuando / < 0.34 o / > 3.11, donde 
/ = s\j s\ con vi = 11 y V 2 = 9 grados de libertad. 



Figura 10.20: Region critica para la hipotesis alternativa <j\ ^ a\ ■ 


5. Calculos: si = 16, si = 25 y, por ende, f = \ | = 0.64. 

6 . Decision: no rechace Hq. Concluya que no hay suficiente evidencia de que las 
varianzas difieran. 


Prueba F para probar varianzas con el SAS 

La figura 10.18 de la pagina 357 muestra una prueba t de dos muestras donde se 
comparan dos medias, como ejercicio, con los datos de los retonos. La grafica de 
caja y extension en la figura 10.17 de la pagina 356 sugiere que las varianzas no son 
homogeneas y, por ello, el estadfstico t' y su valor P correspondiente son relevantes. 
Note tambien que la salida muestra el estadfstico F para Hy. oq = cr 2 - con un valor 
P de 0.0098, es decir, evidencia adicional de que se debe esperar mas variabilidad 
cuando se usa nitrogeno, en comparacion con la condicion “sin nitrogeno” . 



370 


Capitulo 10 Pruebas de hipotesis de una y dos muestras 


Ej ercicios 

10.67 Se sabe que el volumen de los envases de un lu- 
bricante especffico se distribuye normalmente con una 
varianza de 0.03 litros. Pruebe la hipotesis de que 
a 2 = 0.03 contra la alternativa de que a 2 =^0.03 para la 
muestra aleatoria de 10 envases del ejercicio 10.25 de 
la pagina 357. Use un valor P en sus conclusiones. 

10.68 Por experiencia se sabe que el tiempo que se 
requiere para que los estudiantes de preparatoria de 
ultimo ano completen una prueba estandarizada es una 
variable aleatoria normal, con una desviacion estandar 
de 6 minutos. Pruebe la hipotesis de que a = 6 contra 
la alternativa de que a < 6, si una muestra aleatoria 
de 20 estudiantes de preparatoria de ultimo ano tiene 
una desviacion estandar s = 4.51. Utilice un nivel de 
significancia de 0.05. 

10.69 Se deben supervisar las aflotoxinas ocasiona- 
das por moho en cosechas de cacahuate en Virginia. 
Una muestra de 64 lotes de cacahuate revela niveles 
de 24.17 ppm, en promedio, con una varianza de 4.25 
ppm. Pruebe la hipotesis de que a 2 = 4.2 ppm con la 
alternativa de que a 2 ^ 4.2 ppm. Utilice un valor Pen 
sus conclusiones.. 

10.70 Datos historicos indican que la cantidad de di- 
nero que aportaron los residentes trabaj adores de una 
ciudad grande para un escuadron de rescate voluntario 
es una variable aleatoria normal con una desviacion 
estandar de $1.40. Se sugiere que las contribuciones al 
escuadron de rescate solo de los empleados del depar- 
tamento de sanidad son mucho mas variables. Si las 
contribuciones de una muestra aleatoria de 12 emplea- 
dos del departamento de sanidad tienen una desviacion 
estandar de $1.75, ^podemos concluir con un nivel de 
significancia de 0.01 que la desviacion estandar de las 
contribuciones de todos los trabajadores de sanidad es 
mayor que la de todos los trabajadores que viven en 
dicha ciudad? 

10.71 Se dice que una maquina despachadora de be- 
bida gaseosa esta fuera de control si la varianza de los 
contenidos excede 1.15 decilitros. Si una muestra alea- 
toria de 25 bebidas de esta maquina tiene una varianza 
de 2.03 decilitros, ^esto indica con un nivel de signifi- 
cancia de 0.05 que la maquina esta fuera de control? 
Suponga que los contenidos se distribuyen de forma 
aproximadamente normal. 

10.72 Prueba de a 2 = a 2 para una muestra gran- 
de: Cuando n > 30 podemos probar la hipotesis nula de 
que a 2 = a q o a 2 = <7o, al calcular 


s — (To 



que es un valor de una variable aleatoria cuya distribu- 
tion de muestreo es aproximadamente la distribution 
normal estandar. 


a) Con referenda al ejemplo 10.5 pruebe, con un nivel 
de significancia de 0.05, si a = 10.0 anos contra la 
alternativa de que a ^ 10.0 anos. 

b) Se sospecha que la varianza de la distribution de 
distancias en kilometros logrados en 5 litros de com- 
bustible, por un modelo nuevo de automovil equipa- 
do con un motor diesel, es menor que la varianza de 
la distribution de distancias lograda por el mismo 
modelo equipado con un motor de gasolina de seis 
cilindros, que se sabe es a 2 = 6.25. Si 72 recorridos 
de prueba en el modelo diesel tienen una varianza de 
4.41, ^podemos concluir con un nivel de significancia 
de 0.05 que la varianza de las distancias alcanzadas 
por el modelo diesel es menor que la del modelo de 
gasolina? 

10.73 Se realiza un estudio para comparar la longi- 
tud de tiempo entre hombres y mujeres para ensamblar 
cierto producto. La experiencia indica que la distribu- 
tion de los tiempos tanto para hombres como para mu- 
jeres es aproximadamente normal, pero que la varian- 
za de los tiempos para las mujeres es menor que para 
los hombres. Una muestra aleatoria de tiempos para 11 
hombres y 14 mujeres da los siguientes datos: 

Hombres Mujeres 

m = 11 712 = 14 

si = 6.1 S 2 = 5.3 

Pruebe la hipotesis de que a 2 = a 2 contra la alternativa 
de que a 2 > a%. LItilice un valor Pen su conclusion. 

10.74 En el ejercicio 10.41 de la pagina 359, prue- 
be la hipotesis al nivel de significancia de 0.05 de que 
ax = (J 2 contra la alternativa de que oq =/= cr 2 , donde oq 
y a 2 son las varianzas para el numero de organismos 
por metro cuadrado en los dos diferentes lugares de 
Cedar Run. 

10.75 Con referenda al ejercicio 10.39 de la pagina 
359, pruebe la hipotesis de que a 2 = a 2 contra la alter- 
nativa de que a 2 ^ donde a \ y a 2 son las varianzas 
para los tiempos de duration de pelfculas producidas 
por la compania 1 y la compania 2, respectivamente. 
Utilice un valor P. 

10.76 Se comparan dos tipos de instrumentos para 
medir la cantidad de monoxido de azufre en la atmosfe- 
ra, en un experimento sobre la contamination del aire. 
Se desea determinar si los dos tipos de instrumentos dan 
mediciones que tengan la misma variabilidad. Se regis- 
tran las siguientes lecturas para los dos instrumentos: 

Monoxido de azufre 
Instrumento A Instrumento B 


0.86 

0.87 

0.82 

0.74 

0.75 

0.63 

0.61 

0.55 
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Monoxido de azufre 
Instrumento A Instrumento B 


0.89 

0.76 

0.64 

0.70 

0.81 

0.69 

0.68 

0.57 

0.65 

0.53 


Suponiendo que las poblaciones de mediciones se distri- 
buyen de forma aproximadamente normal, pruebe la 
hipotesis de que <ja = 0B, contra la alternativa de que 
a A 7^ ctb- Use un valor P. 

10.77 Se lleva a cabo un experimento para comparar 
el contenido de alcohol en una salsa de soya en dos 
lmeas de produccion diferentes. La production se su- 
pervisa ocho veces al di'a. Los datos son los que aquf 
se muestran. 

Linea de produccion 1: 

0.48 0.39 0.42 0.52 0.40 0.48 0.52 0.52 
Linea de produccion 2: 

0.38 0.37 0.39 0.41 0.38 0.39 0.40 0.39 

Suponga que ambas poblaciones son normales. Se sos- 
pecha que la linea de produccion 1 no produce con la 


consistencia de la linea 2 en terminos de contenido de 
alcohol. Pruebe la hipotesis de que ay = ay contra la 
alternativa de que ay =f= ay. Utilice un valor P. 

10.78 Se sabe que las emisiones de hidrocarburos dis- 
minuyeron de forma dramatica durante la decada de 
1980. Se realizo un estudio para comparar las emisiones 
de hidrocarburos a velocidad estacionaria, en partes 
por millon (ppm), para automoviles de 1980 y 1990. Se 
seleccionaron al azar 20 automoviles de cada rnodelo 
y se registraron sus niveles de emision de hidrocarbu- 
ros. Los datos son los siguientes: 

Modelos 1980: 

141 359 247 940 882 494 306 210 105 880 

200 223 188 940 241 190 300 435 241 380 

Modelos 1990: 

140 160 20 20 223 60 20 95 360 70 

220 400 217 58 235 380 200 175 85 65 

Pruebe la hipotesis de que ay = ay contra la alternati- 
va de que oy ^ ay. Suponga que ambas poblaciones son 
normales. Utilice un valor P. 


10.14 Prueba de la bondad de ajuste 

A lo largo de este capftulo nos ocupamos de la prueba de hipotesis estadfsticas acer- 
ca de parametros de una sola poblacion como p, cr 2 y p. Ahora consideraremos una 
prueba para determinar si una poblacion tiene una distribution teorica especffica. 
La prueba se basa en que tan buen ajuste tenemos, entre la frecuencia de ocurrencia 
de las observaciones en una muestra observada y las frecuencias esperadas que se 
obtienen a partir de la distribution hipotetica. 


Tabla 10.4: Frecuencias esperadas y observadas de 120 lanzamientos de un dado 


Frecuencia: 

1 

2 

3 

4 

5 

6 

Observada 

20 

22 

17 

18 

19 

24 

Esperada 

20 

20 

20 

20 

20 

20 


Para ilustrar, considere el lanzamiento de un dado. Elaboramos la hipotesis de 
que el dado es legal, lo cual equivale a probar la hipotesis de que la distribution 
de resultados es la distribution uniforme discreta 

f{x) = x = 1,2, ...,6. 

6 

Suponga que el dado se lanza 120 veces y que se registra cada resultado. Teorica- 
mente, si el dado esta balanceado, esperarfamos que cada cara ocurriera 20 veces. 
Los resultados se dan en la tabla 10.4. Al comparar las frecuencias observadas con 
las frecuencias esperadas correspondientes, debemos clecidir si es posible que tales 
discrepancias ocurran como resultado de fluctuaciones del muestreo y de que el dado 
esta balanceado o que este no es legal, y de que la distribution de resultados no es 
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uniforme. Es practica comun referirse a cada resultado posible de un experimento 
como una celda. De aquf, en nuestro caso tenemos 6 celdas. La estadistica adecuada 
en la que basamos nuestro criterio de decision para un experimento que incluye k 
celdas se define mediante el siguiente teorema. 


Una prueba de la bondad de ajuste entre las frecuencias observadas y espera- 
das se basa en la cantidad 


(pj - e ») 2 

donde % 2 es un valor de una variable aleatoria cuya distribution muestral se 
aproxima muy de cerca con la distribution chi cuadrada con v = k — 1 grados de 
libertad. Los shnbolos o* y e, representan las frecuencias observada y esperada, 
respectivamente, para la i-esima celda. 

El numero de grados de libertad que se asocia con la distribution chi cuadrada 
que se utiliza aquf es igual a k — 1, pues hay solo k — 1 frecuencias de celdas libre- 
mente determinadas. Es clecir, una vez que se determinan las frecuencias de k — 1 
celdas queda determinada la frecuencia para la fc-esima celda. 

Si las frecuencias observadas estan cerca de las frecuencias esperadas correspon- 
dientes, el valor yy sera pequeho, lo cual indica un buen ajuste. Si las frecuencias 
observadas difieren de manera considerable de las frecuencias esperadas, el valor 
X 2 sera grande, y el ajuste, cleficiente. Un buen ajuste conduce a la aceptacion de 
Hq', mientras que un ajuste deficiente conduce a su rechazo. La region crftica caera, 
por lo tanto, en la cola derecha de la distribution chi cuadrada. Para un nivel de 
significancia igual a a, encontramos el valor crftico \a de la tabla A. 5 y, entonces, 
X 2 > Xa constituye la region crftica. El criterio de decision que aquf se des- 
cribe no se deberfa utilizar, a menos que cada una de las frecuencias es- 
peradas sea al menos igual a 5. Esta restriction podrfa requerir la combination 
de celdas adyacentes, lo que tiene como resultado una reduction en el numero de 
grados de libertad. 

De la tabla 10.4, encontramos que el valor y 2 es 


k 

* 2 = E 


X 


2 


(20 — 20) 2 | (22 — 20) 2 | (17-20) 2 
20 + 20 + 20 
(18-20) 2 | (19-20) 2 | (24 — 20) 2 


Usando la tabla A. 5, encontramos Xo.os = 11.070 para v = 5 grados de libertad. 
Como 1.7 es menor que el valor crftico, no se rechaza Hq. Concluimos que no hay 
suficiente evidencia de que el dado no esta balanceado. 

Como segunda ilustracion, probemos la hipotesis de que la distribution de fre- 
cuencias de las duraciones de baterfas cladas en la tabla 1.7 de la pagina 23 puede 
aproximarse mediante una distribution normal con media p = 3.5 y una desviacion 
estandar a = 0.7. Las frecuencias esperadas para las 7 clases (celdas), que se listan 
en la tabla 10.5, se obtienen al calcular las areas bajo la curva normal hipotetica que 
caen entre los diversos lfmites de clase. 

Por ejemplo, los valores z que corresponden a los lfmites de la cuarta clase son 


z 1 


2.95 - 3.5 
07 


-0.79 


y Z2 


3.45 - 3.5 
07 


-0.07. 
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Tabla 10.5: Frecuencias observadas y esperadas para las duraciones de las bateri'as 
con la suposicion de normalidad 

Lmiites de clase o, e. 


1.45- 1.95 

2 1 

0.5 

1.95-2.45 

1 V 

2.1 

2.45 - 2.95 

4 J 

5.9 

2.95-3.45 

15 

10.3 

3.45 - 3.95 

10 

10.7 

3.95 - 4.45 

5 Is 

7.0 

4.45 - 4.95 

3 J 8 

3.5 


De la tabla A. 3 encontramos que el area entre z\ = —0.79 y Z 2 = —0.07 es 

area = P(-0.79 < Z < -0.07) = P(Z < -0.07) - P(Z < -0.79) 

= 0.4721 - 0.2148 = 0.2573. 


De aquf, la frecuencia esperada para la cuarta clase es 


e 4 = (0.2573) (40) = 10.3. 


Se acostumbra redondear estas frecuencias a un decimal. 

La frecuencia esperada para el primer intervalo de clase se obtiene al utilizar 
el area total bajo la curva normal a la izquiercla del lfmite 1.95. Para el ultimo in- 
tervalo de clase, usamos el area total a la clerecha del lfmite 4.45. Todas las demas 
frecuencias esperadas se determinan utilizando el metodo que se describe para la 
cuarta clase. Observe que combinamos clases adyacentes en la tabla 10.5, donde 
las frecuencias esperadas son menores que 5. En consecuencia, el numero total de 
intervalos se reduce de 7 a 4, lo cual tiene como resultado v = 3 grados de libertad. 
El valor % 2 esta dado entonces por 


X 


2 


(7 — 8.5) 2 (15-10.3) 2 (10-10.7) 2 

8A + 103 + 107 


(8 - 10.5) 2 
105 


3.05. 


Como el valor y 2 calculado es menor que Xo .05 = 7.815 para 3 grados de libertad, 
no tenemos razon para rechazar la hipotesis nula y concluimos que la distribution 
normal con p = 3.5 y er = 0.7 brinda un buen ajuste para la distribution de dura- 
ciones de las bateri'as. 

La prueba de bondad de ajuste chi cuadrada es un recurso importante, en par- 
ticular dado que muchos procedimientos estadfsticos en la practica dependen, en un 
sentido teorico, de la suposicion de que los datos reunidos provienen de un tipo de 
distribution especffico. Como ya vimos, la suposicion de normalidad se hace con bas- 
tante frecuencia. En los siguientes capftulos continuaremos haciendo suposiciones de 
normalidad , con la finalidad de proporcionar una base teorica para ciertas pruebas 
e intervalos de confianza. 

En la literatura hay pruebas que son mas poderosas que la prueba chi cuadrada 
para demostrar la normalidad. Una de tales pruebas es la prueba de Geary, la cual 
se basa en un estadfstico muy sencillo que es una razon de clos estimadores de 
la desviacion estandar poblacional a. Suponga que se toma una muestra aleatoria 
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X\, X' 2 , . . . , X n de una distribution normal, N(p, oj. Considere la razon 


U = 


n 

V^j2E\Xi~X\/n 

i- 1 



X) 2 /n 


El lector deberfa reconocer que el denominador es un estimador razonable de a si 
la distribution es normal o no. El numerador es un buen estimador de a si la dis- 
tribution es normal; sin embargo, podria sobrestimar o subestimar a cuando hay a 
desviaciones de la normalidad. Asi, los valores de U que difieren considerablemente 
de 1.0 representan la sehal de que se deberfa rechazar la hipotesis de normalidad. 

Para muestras grandes, una prueba razonable se basa en la normalidad aproxima- 
da de U. El estadfstico de prueba es, entonces, una estandarizacion de U, dada por 


0.2661/Vn' 

Desde luego, el procedimiento de prueba incluye la region crftica bilateral. Calcula- 
mos un valor de z a partir de los datos y no rechazamos la hipotesis de normalidad 
cuando 


~ z a/2 < Z < Z a / 2- 

En la bibliograffa se cita un artfculo que trata sobre la prueba de Geary. 


10.15 Prueba de independencia (datos categoricos) 

El procedimiento de prueba de chi cuadrada, que se presenta en la section 10.14, 
tambien se puede usar para probar la hipotesis de independencia de dos variables 
de Gasification. Suponga que deseamos determinar si las opiniones de los votantes 
residentes del estado de Illinois con respecto a una nueva reforma de impuestos son 
independientes de sus niveles de ingreso. Una muestra aleatoria de 1000 votantes 
registrados del estado de Illinois se clasifican de acuerdo con su position en las cate- 
gories de ingreso bajo, medio o alto, y si estan a favor o no de la nueva reforma de 
impuestos. Las frecuencias observadas se presentan en la tabla 10.6, que se conoce 
como tabla de contingencia. 


Tabla 10.6: Tabla de contingencia 2x3 




Nivel de 

ingreso 


Reforma de 
impuestos 

Bajo 

Medio 

Alto 

Total 

A favor 

182 

213 

203 

598 

En contra 

154 

138 

110 

402 

Total 

336 

351 

313 

1000 


Una tabla de contingencia con r renglones y c columnas se denomina tabla r x c 
(“r x c” se lee “r por c”). Los totales de renglones y columnas en la tabla 10.6 se 
denominan frecuencias marginales. Nuestra decision de aceptar o rechazar la 
hipotesis nula, Hq, de independencia entre la opinion de un votante, con respecto a 
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la nueva reforma de impuestos y su nivel de ingreso, se basa en que tan buen ajuste 
tengamos entre las frecuencias observadas en cada una de las 6 celdas de la tabla 
10.6, y las frecuencias que esperarfamos para cada celda bajo la suposicion de que Hq 
es verdadera. Para encontrar estas frecuencias esperadas, definamos los siguientes 
eventos: 

L : Una persona seleccionada esta en el nivel de ingresos bajo. 

M: Una persona seleccionada esta en el nivel de ingresos medio. 

H: Una persona seleccionada esta en el nivel de ingresos alto. 

F: Una persona seleccionada esta a favor de la nueva reforma de impuestos. 

A: Una persona seleccionada esta en contra de la nueva reforma de impuestos. 

Usando las frecuencias marginales, podemos listar las siguientes estimaciones de 
probabilidad: 


P(L) 
P(F ) 


336 

1000 ’ 

598 

1000 ’ 


P(M ) 
P(A) 


351 

1000 ’ 

402 

1000 ' 


P(H) 


313 

1000 ’ 


Ahora bien, si Hq es verdadera y las dos variables son independientes, deberiamos 
tener 

P(L n F) = mP(F) = (^) (S) ■ 

P(LnA) = P(L)P(A) = (igf) (i?l) , 

P ( MnF>=P(M ) P(F ) =(^- 0 ) (^), 

P(«nA)=WW=(a) (S)' 

r(«n F )=W(F)=(||) (S)’ 

(^|). 

Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una celda 
por el numero total de observaciones. Como antes, redondeamos estas frecuencias 
a un decimal. Asi, se estima que el numero esperado de votantes de bajo ingreso en 
nuestra muestra que favorecen la nueva reforma fiscal es 



(336) (598) 
1000 


200.9, 


cuando Hq es verdadera. La regia general para obtener la frecuencia esperada de 
cualquier celda esta dada por la siguiente formula: 


frecuencia esperada = (total de la columna) x (total del renglon) 

gran total 

En la tabla 10.7 la frecuencia esperada para cada celda se registra entre parentesis 
a un lado del valor observado real. Observe que las frecuencias esperadas en cual- 
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quier renglon o columna se suman al total marginal apropiado. En nuestro ejemplo 
necesitamos calcular solo las dos frecuencias esperadas en el renglon superior de la 
tabla 10.7 y, despues, encontrar las otras por sustraccion. El numero de grados de 
libertad asociados con la prueba chi cuadrada que aqui se usa es igual al numero 
de frecuencias de celdas que se pueden llenar libremente, cuando se nos dan los to- 
tales marginales y el gran total, y en este caso este numero es 2. Una formula simple 
que proporciona el numero correcto de grados de libertad es 


v = (r — l)(c — 1). 


Tabla 10.7: Frecuencias observadas y esperadas 



Nivel de ingreso 


Reforma fiscal 

Bajo 

Medio 

Alto 

Total 

A favor 

182 (200.9) 

213 (209.9) 

203 (187.2) 

598 

En contra 

154 (135.1) 

138 (141.1) 

110 (125.8) 

402 

Total 

336 

351 

313 

1000 


De aqui, para nuestro ejemplo, = (2 — 1)(3 — 1) = 2 grados de libertad. Para 
probar la hipotesis nula de independencia, usamos el siguiente criterio de decision: 


Calcule 


x 2 = 


E 


(Oi - e*) 2 


donde la suma se extiende a todas las celdas rc en la tabla de contingencia r x c. 
Si X 2 > X 2 con u = (r — l)(c — 1) grados de libertad, rechace la hipotesis nula de 
independencia al nivel de significancia a; en cualquier otro caso, no rechace la 
hipotesis nula. 

Al aplicar este criterio a nuestro ejemplo, encontramos que 


2 (182 - 200.9) 2 (213 - 209.9) 2 (203 - 187.2) 2 

X “ 200.9 + 209.9 + 187.2 

(154- 135. 1) 2 (138 - 141. 1) 2 (110 - 125.8) 2 

+ 135.1 + 141.1 + 125.8 

P «0.02. 


7.85, 


De la tabla A. 5 encontramos que X 0.05 = 5.991 para v = (2 — 1) (3 — 1) = 2 grados 
de libertad. Se rechaza la hipotesis nula y concluimos que la opinion de un votante 
con respecto a la nueva reforma fiscal y su nivel de ingresos no son independientes. 

Es importante recordar que el estadfstico sobre el cual basamos nuestra decision 
tiene una distribucion que solo se aproxima por la distribution chi cuadrada. Los 
valores y 2 calculados dependen de las frecuencias de las celdas y, en consecuencia, son 
discretos. La distribucion chi cuadrada continua parece aproximar muy bien la distri- 
bucion de muestreo discreta de y 2 , dado que el numero de grados de libertad es mayor 
que 1. En una tabla de contingencia de 2 x 2, donde solo tenemos 1 grado de liber- 
tad, se aplica una correccion llamada correccion de Yates para continuidad. 
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La formula corregida se vuelve entonces 

X 2 (corregida) = — 


0.5) 2 


Si las frecuencias de celdas esperadas son grandes, los resultados corregidos y sin 
correction son casi los mismos. Cuando las frecuencias esperadas estan entre 5 y 10, se 
deberia aplicar la correction de Yates. Para frecuencias esperadas menores que 5, 
se deberia utilizar la prueba exacta de Fisher-Irwin. Una discusion de esta prueba se 
puede encontrar en Basic Concepts of Probability and Statistics de Hodges and 
Lehmann (vease la bibliografia). La prueba de Fisher-Irwin se puede evitar, sin em- 
bargo, mediante la election de una muestra grande. 


10.16 Prueba de homogeneidad 

Cuando probamos la independencia en la section 10.15, se selecciono una muestra 
aleatoria de 1000 votantes, y los totales de renglon y columna para nuestra tabla de 
contingencia se determinaron al azar. Otro tipo de problema para el que se aplica el 
metodo de la section 10.15 es aquel donde se predeterminan los totales de renglon y 
columna. Suponga, por ejemplo, que decidimos de antemano seleccionar 200 demo- 
cratas, 150 republicanos y 150 independientes de los votantes del estado de Carolina 
del Norte y registrar si favorecen una iniciativa de ley para el aborto, estan en contra 
o estan indecisos. Las respuestas observadas se dan en la tabla 10.8. 


Tabla 10.8: Frecuencias observadas y esperadas 


Ley del aborto 

Afiliacion politica 


Total 

Democrata 

Republicano 

Indep endiente 

A favor 

82 

70 

62 

214 

En contra 

93 

62 

67 

222 

Indecisos 

25 

18 

21 

64 

Total 

200 

150 

150 

500 


Ahora bien, en vez de probar la independencia, probamos la hipotesis de que las 
proporciones de poblacion clentro de cada renglon son las mismas. Es decir, proba- 
mos la hipotesis de que las proporciones de democratas, republicanos e independien- 
tes que favorecen la ley sobre el aborto son las mismas; las proporciones de cada 
afiliacion politica contra la ley son las mismas; y las proporciones de cada afiliacion 
politica de quienes estan indecisos son las mismas. Basicamente nos interesamos en 
determinar si las tres categorias de votantes son homogeneas con respecto a sus 
opiniones acerca de la iniciativa de ley sobre el aborto. Tal prueba se llama prueba 
de homogeneidad. 

Al suponer homogeneidad, de nuevo encontramos las frecuencias esperadas de las 
celdas al multiplicar los totales de renglon y columna correspondientes, y despues 
dividir entre el gran total. El analisis entonces continua al utilizar el mismo estadfs- 
tico chi cuadrada como antes. Ilustramos este proceso en el siguiente ejemplo para 
los datos de la tabla 10.8. 


Ejemplo 10.15:1 Con referenda a los datos de la tabla 10.8, pruebe la hipotesis de que las opiniones 
con respecto a la ley del aborto propuesta son las mismas dentro de cada afiliacion 
politica. Utilice un nivel de significancia de 0.05. 
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Solucion: 1 . Hy. Para cada opinion las proporciones de democratas, republicanos e inde- 
pendientes son las mismas. 

2 . Hy. Para al menos una opinion, las proporciones de democratas, republicanos e 
independientes no son las mismas. 

3 . a = 0.05. 

4 . Region critica: y 2 > 9.488 con v = 4 grados de libertad. 

5 . Calculos: Al usar la formula de las frecuencias de celdas esperadas de la pagina 
375 necesitamos calcular las 4 frecuencias de celdas. Todas las demas frecuencias 
se encuentran por sustraccion. Las frecuencias de celdas observadas y esperadas se 
muestran en la tabla 10.9. 


Tabla 10.9: Frecuencias observadas y esperadas 



Aflliacion polftica 



Ley del aborto 

Democrata 

Republicano 

Independiente 

Total 

A favor 

82 (85.6) 

70 (64.2) 

62 (64.2) 

214 

En contra 

93 (88.8) 

62 (66.6) 

67 (66.6) 

222 

Indecisos 

25 (25.6) 

18 (19.2) 

21 (19.2) 

64 

Total 

200 

150 

150 

500 


Asi, 


2 (82 — 85. 6) 2 (70-64.2) 2 (62 - 64.2) 2 

Y ~ 846 1 642 1 642 

(93 - 88. 8) 2 (62 - 66. 6) 2 (67 - 66.6) 2 

+ 848 + 646 + 646 

(25 — 25. 6) 2 , (18 — 19. 2) 2 | (21 - 19.2) 2 
H 246 1 142 1 142 

= 1.53. 

6. Decision: No rechace Hq. No hay suficiente evidencia para concluir que la pro- 
portion de democratas, republicanos e independientes difieren para cada opinion 
establecida. 


10.17 Prueba para varias proporciones 

El estadistico chi cuadrada para probar la homogeneidad tambien se aplica cuando 
se prueba la hipotesis de que k parametros binomiales tienen el mismo valor. Esta 
es, por lo tanto, una extension de la prueba que se presento en la section 10.12, para 
determinar diferencias entre dos proporciones a una prueba para determinar diferen- 
cias entre k proporciones. Por ello, nos interesamos en probar la hipotesis nula 

H 0 : pi = P2 = ■■■ = Pk 

contra la hipotesis alternativa, Hi, de que las proporciones de la poblacion no son 
todas iguales. Para ejecutar esta prueba, primero observamos muestras aleatorias 
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Ejemplo 10.16: 


Solucion: 


Tabla 10.10: k muestras binomiales independientes 


Muestras: 

1 

2 

k 

Exitos 

Xi 

x 2 

Xk 

Fracasos 

77-1 — X\ 

n 2 - x 2 



independientes de tamano ni, n 2 , . . . , nk de las k poblaciones y acomodamos los 
datos como en la tabla de contingencia 2 x k, tabla 10.10. 

Segun si los tamanos de las muestras aleatorias se predeterminaron u ocurrieron 
al azar, el procedimiento de prueba es identico a la prueba de homogeneidad o a la 
prueba de independencia. Por lo tanto, las frecuencias de celdas esperadas se calcu- 
lan como antes y se sustituyen junto con las frecuencias observadas en el estadistico 
chi cuadrada 


x 2 = 


E 


(Oi - ti ) 2 


con 


v = {2- 1 )(k -l) = k-l 


grados de libertad. 

Al seleccionar la region critica apropiada de la cola superior de la forma y 2 > % 2 , 
podemos llegar ahora a una decision con respecto a H$. 


En un estudio sobre un taller, se reune un conjunto de datos para determinar si 
la proportion de artfculos clefectuosos producida por los trabaj adores fue la misma 
para el turno matutino, el vespertino o el nocturno. Los datos se reunieron y se pre- 
sentan en la tabla 10.11: 


Tabla 10.11: Datos para el ejemplo 10.16 


Turno: 

Matutino 

Vespertino 

Nocturno 

Defectuosos 

45 

55 

70 

No defectuosos 

905 

890 

870 


Utilice un nivel de significancia de 0.025 para determinar si la proportion de defec- 
tuosos es la misma para los tres turnos. 

Representemos con pi, p2 y P3 la proportion real de defectuosos para los turnos ma- 
tutino, vespertino y nocturno, respectivamente. 

1 . H 0 : pi = p 2 = P3- 

2. H p pi, p2 y P3 no todas son iguales. 

3. a = 0.025. 

4. Region critica: \ 2 > 7.378 para v = 2 grados de libertad. 

5. Calculos: En correspondence con las frecuencias observadas o\ = 45 y 02 = 55, 
encontramos 


ei 


(950) (170) 


57.0 


y e 2 


(945) (170) 


56.7. 


2835 


2835 
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Todas las demas frecuencias esperadas se encuentran por sustraccion y se inclu- 
yen en la tabla 10.12. 


Tabla 10.12: Frecuencias esperadas y observadas 


Turno: 

Matutino 

Vespertino 

Nocturno 

Total 

Defectuosos 

No defectuosos 

45 (57.0) 
905 (893.0) 

55 (56.7) 
890 (888.3) 

70 (56.3) 
870 (883.7) 

170 

2665 

Total 

950 

945 

940 

2835 


Ahora bien, 

2 (45 — 57. 0) 2 (55 — 56. 7) 2 (70 - 56.3) 2 

X ~ 57T + 56/7 + 56/3 

(905 — 893. 0) 2 (890- 888. 3) 2 (870 - 883. 7) 2 

+ 893.0 + 888.3 + 883.7 “ ' ’ 

P «0.04. 

6. Decision: no rechazamos H$ con a = 0.025. No obstante, con el anterior valor P 
calculado, ciertamente seria riesgoso concluir que la proportion de clefectuosos 
producidos es la misma para todos los turnos. 


10.18 Estudio de caso de dos muestras 

En esta section consideramos un estudio donde clemostramos un analisis completo 
usando tanto el analisis grafico como el formal, junto con salidas por computadora 
comentados y conclusiones. En un estudio del analisis de clatos que realizo el perso- 
nal del Centro de Consulta Estadtstica del Tecnologico de Virginia, se compararon 
dos materiales diferentes, digamos la aleacion A y la aleacion B , en terminos de la 
resistencia de rotura. La aleacion B es mas cara, aunque en realidad se deberia adop- 
tar si se demuestra que es mas fuerte que la aleacion A. Se clebe tomar en cuenta la 
consistencia del rendimiento de las dos aleaciones. 

Se seleccionaron muestras aleatorias de vigas de cada aleacion y la resistencia se 
midio en una deflexion de 0.001 pulgadas cuando se aplico una fuerza fija en ambos 
extremos de la viga. Se utilizaron 20 espeefmenes para cada una de las dos aleacio- 
nes. Los datos se presentan en la tabla 10.13. 

Es importante que el ingeniero compare las dos aleaciones. La preocupacion es la 
resistencia promedio y la reproducibilidad. Interesa determinar si hay una transgre- 
sion seria de la suposicion de normalidad que requieren las pruebas tyF. Las figuras 
10.21 y 10.22 son graficas de cuantil-cuantil normales de las muestras para las dos 
aleaciones. 

No parece haber ninguna transgresion seria de la suposicion de normalidad. Ade- 
nitis, la figura 10.23 muestra dos graficos de caja y extension en la misma grafica. 
Los graficos de caja y extension sugieren que no hay una diferencia apreciable de 
la variabilidad en la deflexion para las dos aleaciones. Sin embargo, parece que la 
media de la aleacion B es significativamente menor, lo cual sugiere (graficamente al 
menos) que la aleacion B es mas fuerte. Las medias muestrales y las desviaciones 
estandar son 


Ua = 83.55, = 3.663; 


y B = 79.70, s B = 3.097. 
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Tabla 10.13: Datos para el estudio de caso de dos muestras 


Aleacion A Aleacion B 


88 

82 

87 

75 

81 

80 

79 

85 

90 

77 

78 

81 

84 

88 

83 

86 

78 

77 

89 

80 

81 

84 

82 

78 

81 

85 


80 

80 


83 

87 


78 

76 


82 

80 


83 

85 


79 

78 


76 

79 




Figura 10.21: Grafica de cuantil-cuantil normal 
de los datos para la aleacion A. 



- 2-10 1 
Cuantil normal 


Figura 10.22: Grafica de cuantil-cuantil normal 
de los datos para la aleacion B. 


La salida del SAS para el PROC TTEST se presenta en la figura 10.24. La prueba F 
sugiere que no hay diferencia significativa en las varianzas (P = 0.4709) y el estadfs- 
tico t de dos muestras para probar 


Ho'- Oa = Ob, 
Hr- OA > Ob, 


(t = 3.59, P= 0.0009) rechaza Ho en favor de H ± y, de esta manera, confirma lo que 
sugiere la informacion grafica. Aquf utilizamos la prueba t que reune las varianzas 
de dos muestras a la luz de los resultados de la prueba F. Con base en este analisis 
serf a adecuada la adopcion de la aleacion B. 
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Q 



Aleacion A 


Aleacion B 


Figura 10.23: Graficos de caja y extension para ambas aleaciones. 


The TTEST Procedure 


Alloy 

N 

Mean Std Dev 

Std Err 

Alloy A 

20 

83.55 3.6631 

0.8191 

Alloy B 

20 

79.7 3.0967 

0.6924 

Variances 

: DF 

t Value Pr 

' > lt| 

Equal 

38 

3.59 

0.0009 

Unequal 

37 

3.59 

0.0010 


Equality 

of Variances 


Num DF 

Den DF 

F Value Pr 

■ > F 

19 

19 

1.40 0. 

4709 


Figura 10.24: Salida del SAS comentada para los datos de las aleaciones. 

Significancia estadfstica, y significancia cientffica o en ingenierfa 

Mientras que el estadistico se puede sentir muy a gusto con los resultados de la 
comparacion entre las dos aleaciones en el estudio anterior, queda un dilema para 
el ingeniero. El analisis demuestra una mejorfa estadisticamente significativa con el 
uso de la aleacion B. Sin embargo, ^se encuentra que la diferencia realmente valga 
la pena si la aleacion B es mas cara? Esta ilustracion resalta un asunto muy impor- 
tante que con frecuencia se pasa por alto por los estadisticos y el analista de datos: 
la distincion entre significancia estadistica y significancia cientifica o en ingenieria. 
Aqui la diferencia promedio en la deflexion es y a — y b — 0.00385 pulgadas. En un 
analisis completo el ingeniero debe determinar si la diferencia es suficiente para 
justificar el costo extra en el largo plazo. Este es un asunto economico y de ingenie- 
rfa. El lector deberfa comprender que una diferencia estadisticamente significativa 
tan solo implica que la diferencia en las medias muestrales que se encuentra en los 
datos con dificultad podrfa ocurrir al azar. Esto no implica que la diferencia en las 
medias poblacionales sea profunda o particularmente significativa en el contexto del 
problema. Por ejemplo, en la seccion 10.7, se utiliza una salida por computadora 
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para demostrar la evidencia de que un medidor de pH esta, de hecho, sesgado. Es 
decir, esto no demuestra un pH medio de 7.00 para el material en que se probo. Sin 
embargo, la variabilidad entre las observaciones en la muestra es muy pequena. El 
ingeniero puede decidir que las desviaciones pequenas de 7.0 hacen que el medidor 
de pH sea bastante adecuado. 


Ej ercicios 

10.79 Se lanza 180 veces un dado con los siguientes 
result ados: 


X 

1 

2 

3 

4 

5 

6 

f 

28 

36 

36 

30 

27 

23 


^Es un dado balanceado? Utilice un nivel de significan- 
cia de 0.01. 

10.80 En 100 lanzamientos de una moneda se obser- 
van 63 caras y 37 cruces. ^Es una moneda balanceada? 
Utilice un nivel de significancia de 0.05. 

10.81 Se supone que una maquina mezcla cacahua- 
tes, avellanas, anacardos y pacanas a razon de 5:2:2:1. 
Se encuentra que una lata que contiene 500 de tales 
nueces mezcladas tiene 269 cacahuates, 112 avellanas, 
74 anacardos y 45 pacanas. A1 nivel de significancia de 
0.05, pruebe la hipotesis de que la maquina mezcla las 
nueces a una razon de 5:2:2: 1. 

10.82 Las calificaciones de un curso de estadfstica 
para un semestre especffico fueron las siguientes: 


Calificacion 

A 

B 

C 

D 

/ 

14 

18 

32 

20 


Pruebe la hipotesis, al nivel de significancia de 0.05, de 
que la distribucion de calificaciones es uniforme. 

10.83 Se extraen 3 cartas de una baraja ordinaria, 
con reemplazo, y se registra el numero Y de espadas. 
Despues de repetir el experimento 64 veces, se registran 
los siguientes resultados: 


y 

0 

1 

2 

3 

f 

21 

31 

12 

0 


Con un nivel de significancia de 0.01, pruebe la hipo- 
tesis de que los datos registrados se pueden ajustar 
mediante la distribucion binomial b(y, 3, 1/4), y = 0, 
1, 2, 3. 

10.84 Se seleccionan tres canicas de una urna que con- 
tiene 5 canicas rojas y 3 verdes. Despues de registrar el 
numero X de canicas rojas, las canicas se reemplazan 
en la urna y el experimento se repite 112 veces. Los 
resultados que se obtienen son los siguientes: 


X 

0 

i 

2 

3 

f 

i 

31 

55 

25 


Con un nivel de significancia de 0.05, pruebe la hipotesis 
de que los datos registrados se pueden ajustar con la dis- 
tribucion liipergeometrica h(x, 8, 3, 5), x = 0, 1, 2, 3. 


10.85 Se lanza una moneda hasta que sale una cara 
y se registra el numero de lanzamientos X. Despues 
de repetir el experimento 256 veces, obtenemos los si- 
guientes resultados: 


X 

1 

2 

3 

4 

5 

6 

7 

8 

f 

136 

60 

34 

12 

9 

1 

3 

1 


Con un nivel de significancia de 0.05 pruebe la hipo- 
tesis de que la distribucion observada de A' se puede 
ajustar por la distribucion geometrica g(x; 1/2), x = 
1,2,3,... 

10.86 Repita el ejercicio 10.83 con un conjunto nuevo 
de datos obtenidos al llevar a cabo realmente 64 veces 
el experimento que se describe. 

10.87 Repita el ejercicio 10.85 con el nuevo conjunto 
de datos obtenidos al realizar 256 veces el experimento 
que se describe. 

10.88 En el ejercicio 1.18 de la pagina 28, pruebe la 
bondad de ajuste entre las frecuencias de clase que se 
observan, y las frecuencias esperadas correspondientes 
de una distribucion normal con /i = 65ycr = 21. Uti- 
lice un nivel de significancia de 0.05. 

10.89 En el ejercicio 1.19 de la pagina 28, pruebe la 
bondad del ajuste entre las frecuencias de clase que se 
observan y las frecuencias esperadas correspondientes 
de una distribucion normal con /i = 1.8 y a — 0.4. Uti- 
lice un nivel de significancia de 0.01. 

10.90 En un experimento para estudiar la dependen- 
cia de la hipertension con respecto a los habitos de 
fumar, se tomaron los siguientes datos de 180 indivi- 
duos: 

No Fumadores Fumadores 

fumadores moderados empedernidos 

Con 

hipertension 21 36 30 

Sin 

hipertension 48 26 19 

Pruebe la hipotesis de que la presencia o ausencia de la 
hipertension es independiente de los habitos de fumar. 
Utilice un nivel de significancia de 0.05. 

10.91 Una muestra aleatoria de 90 adultos se clasifi- 
ca de acuerdo con su genero y el numero de horas que 
pasan viendo la television durante una semana: 
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Sexo 

Masculino Femenino 

Mas de 25 horas 15 29 

Menos de 25 horas 27 19 

Utilice un nivel de significancia de 0.01 y pruebe la hi- 
potesis de que el tiempo que pasan viendo television es 
independiente de si el espectador es liombre o mujer. 

10.92 Una muestra aleatoria de 200 hombres casados, 
todos jubilados, se clasifica de acuerdo con la education 
y el numero de hijos: 


Numero de hijos 


Education 

0 1 

2 3 

Mas de 3 

Primaria 

14 

37 

32 

Secundaria 

19 

42 

17 

Universidad 

12 

17 

10 


Con un nivel de significancia de 0.05, pruebe la hipote- 
sis de que el tamano de la familia es independiente del 
nivel academico del padre. 

10.93 Un criminologo realizo una investigation para 
determinar si, en una ciudad grande, la incidencia de 
ciertos tipos de delitos varfa de una parte a otra. Los 
crfmenes especfficos de interes son asalto (con violen- 
cia), robo en casa, hurto y homicidio. La siguiente ta- 
bla muestra el numero de delitos cometidos en cuatro 
areas de la ciudad durante el ano pasado. 

Tipo de crimen 

Distrito Asalto Robo en casa Hurto Homicidio 


1 

162 

118 

451 

18 

2 

310 

196 

996 

25 

3 

258 

193 

458 

10 

4 

280 

175 

390 

19 


lA partir de tales datos podemos concluir, con un nivel 
de significancia de 0.01, que la ocurrencia de estos tipos de 
delitos es dependiente del distrito de la ciudad? 

10.94 El hospital de una universidad realizo un expe- 
rimento para determinar el grado de alivio que brindan 
tres remedios para la tos. Cada medicamento para la tos 
se trata en 50 estudiantes y se registran los siguientes 
datos: 

Remedio para la tos 
NyQuil Robitussin Triaminic 

Sin alivio 11 13 9 

Cierto alivio 32 28 27 

Alivio completo 7 9 14 

Con un nivel de significancia de 0.05, pruebe la hipote- 
sis de que los tres remedios para la tos son igualmente 
efectivos. 

10.95 Para determinar las posiciones actuales acerca 
de las oraciones en escuelas publicas, se llevo a cabo 
una investigation en cuatro condados de Virginia. La 


siguiente tabla da las opiniones de 200 padres del con- 
dado de Craig, 150 padres del de Giles, 100 padres del 
de Franklin y 100 del de Montgomery: 

Condado 


Position Craig Giles Franklin Mont. 


A favor 

65 

66 

40 

34 

En contra 

42 

30 

33 

42 

Sin opinion 

93 

54 

27 

24 


Pruebe la homogeneidad de las opiniones entre los 4 
condados con respecto a las oraciones en escuelas pu- 
blicas. Utilice un valor P en sus conclusiones. 

10.96 De acuerdo con un estudio de la Universidad 
Johns Hopkins publicado en American Journal of 
Public Health, las viudas viven mas que los viudos. 
Considere los siguientes datos de supervivencia de 100 
viudas y 100 viudos despues de la muerte del conyuge: 

Anos vividos Viuda Viudo 


Menos de 5 

25 

39 

de 5 a 10 

42 

40 

Mas de 10 

33 

21 


i,Con un nivel de significancia de 0.05 podemos concluir 
que las proporciones de viudas y viudos son iguales con 
respecto a los diferentes periodos que un conyuge so- 
brevive luego de la muerte de su companero? 

10.97 Las siguientes respuestas con respecto al es- 
tandar de vida al momento de una encuesta de opinion 
independiente de 1000 familias contra un ano antes pa- 
rece estar de acuerdo con los resultados de un estudio 
publicado en Across the Board (junio de 1981): 



Estandar de vida 

Total 

Periodo 

Algo 

mejor 

Igual 

No tan 
bueno 

1980: Enero 

72 

144 

84 

300 

Mayo 

63 

135 

102 

300 

Septiembre 47 

100 

53 

200 

1981: Enero 

40 

105 

55 

200 


Pruebe la hipotesis de que las proporciones de familias 
dentro de cada estandar de vida son las mismas para 
cada uno de los cuatro periodos. Utilice un valor P. 

10.98 Se lleva a cabo un estudio en Indiana, Kentucky 
y Ohio, para determinar la postura de los votantes con 
respecto al transporte escolar. Una encuesta de 200 vo- 
tantes de cada uno de estos estados da los siguientes 
resultados: 


Postura del votante 


Estado 

Apoya 

No 

apoya 

Indeciso 

Indiana 

82 

97 

21 

Kentucky 

107 

66 

27 

Ohio 

93 

74 

33 



Ejercicios de repaso 


385 


Con un nivel de significancia de 0.025, pruebe la hipo- 
tesis nula de que las proporciones de votantes dentro 
de cada categorfa de postura son las mismas para cada 
uno de los tres estados. 

10.99 Se lleva a cabo una investigation en dos ciu- 
dades de Virginia, para determinar la opinion de los 
votantes hacia los candidatos a la gubernatura en una 
election proxima. En cada ciudad se seleccionan 500 
votantes al azar y se registran los siguientes datos: 

Ciudad 

Opinion del votante Richmond Norfolk 


Favorece a A 

204 

225 

Favorece a B 

211 

198 

Indeciso 

85 

77 


Ejercicios de repaso 

10.101 Un genetista se interesa en la proportion de 
hombres y mujeres de una poblacion que tiene cierto 
trastorno sanguineo menor. En una muestra aleato- 
ria de 100 hombres, se encuentra que 31 lo padecen, 
mientras que solo 24 de 100 mujeres parecen tener el 
trastorno. ^Con un nivel de significancia de 0.01 pode- 
mos concluir que la proportion de hombres en la pobla- 
cion con este trastorno sangumeo es significativamente 
mayor que la proportion de mujeres afectadas? 

10.102 Considere la situation del ejercicio 10.54 de 
la pagina 361. El consumo de oxfgeno en ml/kg/min 
tambien se midio en los nueve sujetos. 


Sujeto 

Con CO 

Sin CO 

1 

26.46 

25.41 

2 

17.46 

22.53 

3 

16.32 

16.32 

4 

20.19 

27.48 

5 

19.84 

24.97 

6 

20.65 

21.77 

7 

28.21 

28.17 

8 

33.94 

32.02 

9 

29.32 

28.96 


Se conjetura que el consumo de oxfgeno deberfa ser ma- 
yor en un ambiente relativamente libre de CO. Realice 
una prueba de significancia y discuta la conjetura. 

10.103 Establezca las hipotesis nula y alternativa 
para utilizarse en la prueba de las siguientes ahrmacio- 
nes y determine de manera general donde se localiza la 
region crftica: 

a) La cafda de nieve promedio en el lago George duran- 
te el mes de febrero es 21.8 centhnetros. 

b) No mas de 20% del cuerpo de profesores en la uni- 
versidad local contribuyo a un fondo anual. 

c) En promedio, los ninos asisten a la escuela dentro 
de 6.2 kilometros de sus casas en un suburbio de St. 
Louis. 


Con un nivel de significancia de 0.05, pruebe la hipote- 
sis nula de que las proporciones de votantes que favo- 
recen al candidato A, al candidato B o estan indecisos 
son las mismas para cada ciudad. 

10.100 En un estudio para estimar la proportion de 
esposas que de manera regular veil telenovelas, se en- 
cuentra que 52 de 200 esposas en Denver, 31 de 150 en 
Phoenix, y 37 de 150 en Rochester veil al menos una 
telenovela. Utilice un nivel de significancia de 0.05 pa- 
ra probar la hipotesis de que no hay diferencia entre 
las proporciones reales de esposas que ven telenovelas 
en esas tres ciudades. 


d) Al menos 70% de los automoviles nuevos del siguien- 
te ano caeran en la categorfa de compactos y semi- 
compactos. 

e) La proportion de votantes que favorecen al funcio- 
nario actual en la proxima election es 0.58. 

/) El filete rib-eye promedio en el restaurante Long- 
horn Steak es de al menos 340 gramos. 

10.104 Se realiza un estudio para determinar si, en 
las bodas, mas italianos que estadounidenses prehe- 
ren la champana blanca en vez de la rosada. De los 
300 italianos que se seleccionaron al azar, 72 preheren 
champana blanca, y de los 400 estadounidenses selec- 
cionados 70 preheren champana blanca en vez de la 
rosada. ^Podemos concluir que una proportion mayor 
de italianos que de estadounidenses prehere champana 
blanca en las bodas? Utilice un nivel de significancia 
de 0.05. 

10.105 En un conjunto de datos analizados por el 
Centro de Consulta Estadfstica del Institute Poli- 
tecnico y Universidad Estatal de Virginia, se solicito 
a un grupo de sujetos completar cierta tarea en la 
computadora. La respuesta medida fue el tiempo de 
termination. El proposito del experimento fue probar 
un grupo de herramientas de ayuda desarrolladas por 
el Departamento de Ciencias Computational del 
mismo instituto. Participaron 10 sujetos. Con una 
asignacion al azar, a 5 se les dio un procedimiento es- 
tandar con lenguaje Fortran para completar la tarea. 
A los otros 5 se les pidio realizar la tarea usando las 
herramientas de ayuda. A continuation se presentan 
los datos de los tiempos de termination de la tarea. 
Suponiendo que las distribuciones poblacionales son 
normales y las varianzas son las mismas para los dos 
grupos, apoye o rechace la conjetura de que las herra- 
mientas de ayuda aumentan la velocidad con la que 
se realiza la tarea. 
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Grupo 1 Grupo 2 

(Procedimiento estandar) (Herramienta de ayuda) 


161 

132 

169 

162 

174 

134 

158 

138 

163 

133 


10.106 Establezca las hipotesis nula y alternativa a 
utilizar en la prueba de las siguientes afirmaciones, y 
determine de manera general donde se ubica la region 
crftica: 

a) A lo mas 20% de la cosecha de trigo del proximo ano 
se exportara a la Union Sovietica. 

b ) En promedio, las anias de casa estadounidenses be- 
ben 3 tazas de cafe al dfa. 

c) La proportion de graduados en Virginia este aiio que 
se especializan en ciencias sociales es al menos 0.15. 

d) La donation promedio a la Asociacion Estadouni- 
dense del Pulmon es no mas de $10. 

e) Los residentes del suburbio Richmond recorren, en 
promedio, 15 kilometros hasta su lugar de trabajo. 

10.107 Si se selecciona al azar una lata que contiene 
500 nueces de cada uno de tres diferentes distribuidores 
de nueces surtidas y contienen, respectivamente, 345, 
313 y 359 cacahuates en cada una de las latas, i,con un 
nivel de significancia de 0.01 podemos concluir que las 
nueces surtidas de los tres distribuidores contienen pro- 
porciones iguales de cacahuates? 

10.108 Valor z para probar p 1 — p 2 = do. Para pro- 
bar la hipotesis nula Ho de que pi — P 2 = do, donde do 

0, basamos nuestra decision en 

Pi ~ P 2 ~ d 0 

z = / ^=i 

Vpigi/m +p292/ri2 

que es un valor de una variable aleatoria, cuya distri- 
bution aproxima la distribution normal estandar, en 
tanto que n\ y n 2 sean grandes. Con referenda al ejem- 
plo 10.12 de la pagina 365, pruebe la hipotesis de que 
el porcentaje de votantes de la ciudad que favorecen la 
construction de la planta qufmica no excedera el por- 
centaje de votantes del condado en mas de 3%. Utilice 
un valor P en su conclusion. 

10.109 Se realiza un estudio para determinar si hay 
una diferencia entre las proporciones de padres en los 
estados de Maryland (MD), Virginia (VA), Georgia 
(GA) y Alabama (AL) que estan a favor de colocar 
Biblias en las escuelas primarias. En la siguiente tabla 
se registran las respuestas de 100 padres seleccionados 
al azar en cada uno de esos estados: 

Estado 

Preferencia MD VA GA AL 

~~Sf 65 71 78 82 

No 35 29 22 18 


i,Podemos concluir que las proporciones de padres que 
estan a favor de colocar Biblias en las escuelas son las 
mismas para estos cuatro estados? Utilice un nivel de 
significancia de 0.01. 

10.110 Se lleva a cabo un estudio en el Centro de Me- 
dicina Veterinaria Equina de la Universidad Regional 
de Virginia-Maryland, para determinar si la realization de 
cierto tipo de cirugfa en caballos jovenes tiene algun efec- 
to en ciertas clases de celulas sanguineas en el animal. Se 
toman muestras del fluido de cada uno de seis potros 
antes y despues de la cirugfa. Se analizan las muestras pa- 
ra el mimero de leucogramos de globulos blancos (wbc) 
posoperatorios. Tambien se realiza una medicion de 
leucogramos wbc preoperatorios. Utilice una prueba t 
de una muestra pareada para determinar si hay un 
cambio significativo en los leucogramos wbc con la 
cirugfa. 


Potro 

Precirugfa* 

Postcirugfa* 

1 

10.80 

10.60 

2 

12.90 

16.60 

3 

9.59 

17.20 

4 

8.81 

14.00 

5 

12.00 

10.60 

6 

6.07 

8.60 


*Todos los valores X 10 3 


10.111 Se lleva a cabo un estudio en el Departamen- 
to de Salud y Education Ffsica del Instituto Politecni- 
co y Universidad Estatal de Virginia, para determinar 
si 8 semanas de entrenamiento realmente reducen los 
niveles de colesterol en los participantes. A un grupo 
de tratamiento que consiste en 15 personas se les dan 
conferencias dos veces a la semana de como reducir su 
nivel de colesterol. Otro grupo de 18 personas de edad 
similar se selecciona al azar como grupo de control. Se 
registran los niveles de colesterol de todos los partici- 
pantes al final del programa de 8 semanas y se listan 
a continuation: 


Grupo de tratamiento : 


129 

131 

154 

172 

115 

126 

175 

191 


122 

238 

159 

156 

176 

175 

126 



Grupo de 

control 







151 

132 

196 

195 

188 

198 

187 

168 

115 

165 

137 

208 

133 

217 

191 

193 

140 

146 


i,Podemos concluir, con un nivel de significancia de 5%, 
que el nivel de colesterol promedio se reduce como con- 
secuencia del programa? Haga la prueba adecuada en 
las medias. 

10.112 En un estudio que realiza el Departamento de 
Ingenien'a Mecanica y que analiza el Centro de Consul- 
ta Estadfstica del Instituto Politecnico y Universidad 
Estatal de Virginia, se comparan las varillas de acero 
que proveen dos companfas diferentes. Se fabrican diez 
resortes de muestra con las varillas proporcionadas por 
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cada compania y se estudia la “capacidad de rebote”. 
Los datos son los siguientes: 


Compania A 


9.3 8.8 
Compania 

6.8 

B 

8.7 

8.5 

6.7 

8.0 

6.5 

9.2 

7.0 

11.0 9.8 

9.9 

10.2 

10.1 

9.7 

11.0 

11.1 

10.2 

9.6 


/.Puede concluir que casi no hay diferencia entre las va- 
rillas de acero proporcionadas por las dos companfas? 
Utilice un valor P para llegar a su conclusion. /.Las 
varianzas deberian combinarse aqui? 

10.113 En un estudio que conduce el Centro de Re- 
cursos Acuaticos y que analiza el Centro de Consulta 
Estadfstica del Instituto Politecnico y Universidad Esta- 
tal de Virginia, se comparan dos plantas de tratamiento 
para aguas residuales. La planta A se ubica donde el 
ingreso medio de los hogares esta por abajo de $22,000 
al aiio, y la planta B se ubica donde el ingreso medio 
de los hogares esta por arriba de $60,000 anuales. La 
cantidad de agua residual que trata cada planta (miles 
de galones/dia) se muestrea de forma aleatoria durante 
10 dias. Los datos son los siguientes: 

Planta A: 

21 19 20 23 22 28 32 19 13 18 


Planta B : 

20 39 24 33 30 28 30 22 33 24 

/.Con un nivel de significancia de 5% podemos concluir 
que la cantidad promedio de agua residual tratada en 
el vecindario de altos ingresos es mayor que la del area 
de bajos ingresos? 

10.114 Los siguientes datos muestran el numero de 
defectos en 100,000 lineas de codigo en un tipo particu- 
lar de software hecho en Estados Unidos y en Japon. 
/.Hay suhciente evidencia para afirmar que existe una 
diferencia significativa entre los programas de los dos 
pafses? Pruebe las medias. /.Deberian combinarse las 
varianzas? 

E.U. 48 39 42 52 40 48 52 52 

54 48 52 55 43 46 48 52 

Japon 50 48 42 40 43 48 50 46 

38 38 36 40 40 48 48 45 

10.115 Estudios indican que la concentration de pcb 
es mucho mas alta en tejido maligno de pecho que en 
tejido normal de pecho. Si un estudio de 50 mujeres 
con cancer de seno revela una concentration promedio 
de pcb de 22.8 x 10~ 4 gramos, con una desviacion es- 
tandar de 4.8 x 10~ 4 gramos, /,1a concentration media 
de pcb es menor que 24 x 10~ 4 gramos? 


10.19 Nociones erroneas y riesgos potenciales; 

relacion con el material de otros capftulos 

Una de las formas mas sencillas de uso incorrecto de la estadfstica tiene que ver 
con la conclusion cientffica final que se obtiene cuando el analista no rechaza la hi- 
potesis nula Ho- En esta obra intentamos aclarar lo que significan la hipotesis nula 
y la alternativa, asf como en sentido amplio, la hipotesis alternativa es mas impor- 
tante. Como cuando, por ejemplo, el ingeniero intenta comparar dos calibradores 
y utiliza una prueba t de dos muestras, y Ho es “los calibradores son equivalentes” 
mientras que H i es “los calibradores no son equivalentes”, no rechazar Ho no lleva 
a la conclusion de calibradores equivalentes” . De hecho, puede darse el caso de que 
nunca se escriba o se diga “Accept Hq” ■ El hecho de no rechazar Hq tan solo implica 
evidencia insuficiente. Dependiendo de la naturaleza de la hipotesis, no se descartan 
aun muchas posibilidades. 

Como en el caso de los intervalos de confianza para muestras grandes que estu- 
diamos en el capftulo 9, una prueba t con muestra grande que utiliza 


x — jit 

Z = J/V^ 

con s que reemplaza a es riesgoso utilizar para n < 30. Si n > 30 y la distribution 
no es normal sino que esta algo cercana a la normal, se requiere el teorema del lfmite 
central y se conffa en el hecho de que n > 30, s ~ a. 
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Desde luego, cualquier prueba t va acompanada con la suposicion concomitante 
de normalidad. Como en el caso de los intervalos de confianza, la prueba t es relati- 
vamente robusta para la normalidad. No obstante, incluso uno cleberia utilizar gra- 
ficas de probabilidad, pruebas del ajuste de bondad u otros procedimientos graficos 
cuando la muestra no es clemasiado pequena. 



Capitulo 11 

Regresion lineal simple y correlacion 


11.1 Introduccion a la regresion lineal 

En la practica, es frecuente que se requiera resolver problemas que implican conjun- 
tos de variables de las cuales se sabe que tienen alguna relacion inherente entre si. 
Por ejemplo, en una situation industrial quiza se sepa que el contenido de alquitran 
en la corriente de salida de un proceso qufmico esta relacionado con la temperatura en 
la entrada. Poclria ser de interes desarrollar un metodo de pronostico, es decir, un 
procedimiento para estimar el contenido de alquitran de varios combustibles de la 
temperatura de entrada, a partir de information experimental. Pero, por supuesto, 
es muy probable que para muchos ejemplos concretos en los que la temperatura de 
entrada sea la misma, por ejemplo 130 °C, el contenido de alquitran a la salida no 
sea el mismo. Esto se parece mucho a lo que ocurre cuando se estudian varios auto- 
moviles con el mismo volumen en su motor. No todos recorreran la misma distancia 
por unidad de gasolina. Si se consideraran viviendas en la misma parte del pats que 
tuvieran la misma superficie habitable, no significaria que todas se venderfan al 
mismo precio. El contenido de alquitran, las millas por unidad de gasolina (mpg), y 
el precio de las casas (en miles de clolares) son variables dependientes naturales 
o respuestas en los tres escenarios. La temperatura en la entrada, el volumen del 
motor (pies cubicos) y los pies cuadrados de area habitable son, respectivamente, 
variables independientes naturales o regresores. Una forma razonable de rela- 
cion entre la respuesta Y y el regresor x es la relacion lineal 

Y= a + (3x, 

donde, por supuesto, a es la intersection y f3 es la pendiente. La relacion se ilus- 
tra en la figura 11.1. 

Si la relacion es exacta, entonces se trata de una determinista entre dos va- 
riables cientfficas, y no contiene ningun componente aleatorio o probabilistico. Sin 
embargo, en los ejemplos que se mencionaron, asi como en muchos otros fenomenos 
cientfficos y de ingenieria, la relacion no es determinista (es decir, una x dada no 
siempre produce el mismo valor de Y). Como resultado, existen problemas impor- 
tantes que son de naturaleza probabilistica, toda vez que la relacion anterior no 
puede considerarse exacta. El concepto de analisis de regresion tiene que ver con 
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Figura 11.1: Una relacion lineal. 


encontrar la mejor relacion entre Y y x, al cuantificar la intensidad de dicha relacion 
y emplear metodos que permitan predecir los valores de la respuesta ante valores 
dados del regresor x. 

En muchas aplicaciones, habra mas de un regresor (es decir, mas de una variable 
independiente que ayude a explicar a Y). Por ejemplo, en el caso en que la res- 
puesta es el precio de una casa, se esperaria que la edad de esta contribuyera a la 
explication del precio, por lo que en este caso la estructura multiple de la regresion 
podria escribirse como 


Y = a + f3\Xi + (32X2, 


donde Y es el precio, X\ son los pies cuadrados y X2 es la edad en anos. En el capitulo 
siguiente se estudiaran problemas con regresores multiples. El analisis resultante se 
denomina regresion multiple; en tanto que el analisis del caso con un solo regresor 
recibe el nombre de regresion simple. Un segundo ejemplo ilustrativo de la regre- 
sion multiple seria el de un ingeniero quimico que estudia la cantidad de hiclroge- 
no perdido de las muestras de un metal especifico que se tiene almacenado. En este 
caso habria dos entradas, el tiempo de almacenamiento X\ en horas, y la tempera- 
tura de almacenamiento X 2 en grados centigrados. Entonces, la respuesta seria la 
perdida de hidrogeno Y en partes por millon. 

En este capitulo se estudia el tema de la regresion lineal simple, que trata el 
caso de una sola variable regresora. Para el caso de mas de una variable regresora, 
el lector debe consultar el Capitulo 12. Sea una muestra aleatoria de tamano n, de- 
notada por el conjunto {(#,, yi); i = 1, 2, ... , n}. Si se tomaran muestras adicionales 
que tuvieran exactamente los mismos valores de x, se esperaria que los valores de y 
variaran. Asi, el valor y.i de la pareja ordenada (xi, iji) es el valor de cierta variable 
aleatoria Y,. 


11.2 El modelo de regresion lineal simple 

Hemos limitado el uso de los terminos analisis de regresion a situaciones donde 
las relaciones entre las variables no son deterministas (esto es, no son exactas). En 
otras palabras, debe existir un componente aleatorio en la ecuacion que relaciona 
las variables. Este componente aleatorio toma en cuenta consideraciones que no se 
miden, o que en realidad no son comprendidas por los cientificos o los ingenieros. Es 
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seguro que en la mayorfa de aplicaciones de la regresion, la ecuacion lineal, di- 
gamos, Y= a + px es una aproximacion simplificada de algo desconocido y mu- 
cho mas complejo. Por ejemplo, en nuestra ilustracion que implica la respuesta 
Y = contenido de alquitran y x — temperatura de entrada, es probable que Y = a 
+ Px sea una aproximacion razonable operativa dentro de un rango limitado de 
x. Se cumple, mas que se infringe, el hecho de que los modelos que son simplifi- 
caciones de estructuras mas complicadas y desconocidas son de naturaleza lineal 
(es clecir, lineales en los parametros a y P, o como en el caso del modelo que 
implica el precio, el tamano y la edad de la casa, lineal en los parametros a, Pi 
y P 2 ). Estas estructuras lineales son sencillas y de naturaleza empfrica, por lo que 
se denominan modelos empfricos. 

Un analisis de la relation entre Y y x requiere el planteamiento de un modelo 
estadfstico. Con frecuencia, un modelo es usado por un estadistico como represen- 
tation de un ideal que, en esencia, define como percibimos que el sistema en cues- 
tion genero los datos. El modelo debe incluir al conjunto [(&», yp; i = 1, 2, . . . , n] 
de datos que implica n parejas de valores (x, y). Debe tenerse en cuenta que el 
valor de y, depende de Xi por medio de una estructura lineal que tambien incluye 
el componente aleatorio. La base para el uso de un modelo estadfstico relaciona la 
forma en que la variable aleatoria Y cambia con x y el componente aleatorio. El 
modelo tambien incluye las suposiciones acerca de las propiedades estadfsticas del 
componente aleatorio. A continuation se da el modelo estadfstico para la regresion 
lineal simple. 


Modelo de 
regresion lineal 
simple 


La respuesta Y se relaciona con la variable independiente x a traves de la ecua- 
cion 


Y = a + Px + e. 


En la cual ay P son los parametros desconocidos de la intersection con el eje ver- 
tical y la pendiente, respectivamente, y e es una variable aleatoria que se supone 
esta distribuida con E(e) = 0 y Var(e) = a 2 . Es frecuente que a la cantidad er 2 se 
le denomine varianza del error o varianza residual. 

Del modelo anterior se hacen evidentes varias cuestiones. La cantidad Y es una 
variable aleatoria, ya que e es aleatoria. El valor x de la variable regresora no es 
aleatorio y, de hecho, se mide con un error despreciable. La cantidad e, que con fre- 
cuencia recibe el nombre de error aleatorio o alteration aleatoria, tiene varianza 
constante. Es frecuente que a esta parte de las suposiciones se le llame la suposi- 
cion de varianza homogenea. La presencia de este error aleatorio, e, impide que 
el modelo sea tan solo una ecuacion determinista. Ahora, el hecho de que E(e) = 0 
implica que para una x especffica los valores de y se distribuyen alrededor de la rec- 
ta verdadera o recta de regresion de la poblacion y - a + Px. Si se elige bien el 
modelo, (esto es, no hay regresores adicionales de importancia y la aproximacion 
lineal es buena dentro de los rangos de los datos), entonces son razonables los errores 
positivos y negativos alrededor de la regresion verdadera. Debe recordarse que en la 
practica se desconocen a y /?, y que deben estimarse a partir de los datos. Ademas, 
el modelo que se acaba de describir es de naturaleza conceptual. Como resultado, en 
la practica nunca se observan los valores reales e, por lo que nunca se puede trazar la 
verdadera recta de regresion (aunque se acepta que ahf esta). Unicamente es posible 
dibujar una recta estimada. La figura 11.2 ilustra la naturaleza de los datos (x, y) 
hipoteticos dispersos alrededor de la verdadera recta de regresion para un caso en 
que solo se dispone de n = 5 observations. Debe destacarse que lo que observamos 
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en la figura 11.2 no es la recta que utilizan el cientffico o ingeniero. En vez de ello, 
jla ilustration unicamente describe el significado de las suposiciones! A continuation 
se describira la regresion que el usuario tiene a su disposition. 


y 



Figura 11.2: Datos (x, y) hipoteticos dispersos alrededor de la vercladera recta de 
regresion para n = 5. 


La recta de regresion ajustada 

Un aspecto importante del analisis de regresion es, simplemente, estimar los parame- 
tros a y f3 (es decir, estimar los llamados coeficientes de regresion). En la section 
siguiente se estudiara el metodo para estimarlos. Suponga que los estimados de ay (3 
se denotan con a y b, respectivamente. Entonces, la recta de regresion ajustada, 
o estimada, esta dada por 


y = a + bx, 


donde y es el valor pronosticado o ajustado. Es evidente que la recta ajustada es una 
estimation de la verdadera recta de regresion. Se espera que la recta ajustada este 
mas cerca de la verdadera lfnea de regresion cuando se disponga de una gran can- 
tidad de datos. En el ejemplo siguiente se ilustra la recta ajustada para un estudio 
sobre contamination en la vida real. 

Uno de los problemas mas desafiantes que se enfrentan en el area del control 
de la contamination del agua lo representa la industria de la peleteria. Los dese- 
chos de esta tienen una complejidad qunnica. Se caracterizan por valores elevados 
de demanda de oxigeno bioqunnico, solidos volatiles y otras medidas de la conta- 
mination. Considere los datos experimentales de la tabla 11.1, que se obtuvo de 
33 muestras de desechos tratados quimicamente, en el estudio que se realizo en el 
Instituto Politecnico y Universidad Estatal de Virginia. Se registraron los valores de 
x, la reduction porcentual de los solidos totales, y de y , el porcentaje de disminucion 
de la demanda de oxigeno quimico, para 33 muestras. 

Los datos de la tabla 11.1 aparecen graficados en la figura 11.3, que es un dia- 
grama de dispersion. A1 inspeccionar dicho diagrama se observa que los puntos 
siguen de cerca una linea recta, lo cual indica que la suposicion de linealidad entre 
las dos variables parece ser razonable. 
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Tabla 11.1: Medidas de los solidos y la demanda de oxi'geno qm'mico 


Reduccion de solidos 
x (%) 

Demanda de oxigeno 
quimico, y (%) 

Reduccion de solidos 
x (%) 

Demanda de oxigeno 
quimico, y (%) 

3 

5 

36 

34 

7 

11 

37 

36 

11 

21 

38 

38 

15 

16 

39 

37 

18 

16 

39 

36 

27 

28 

39 

45 

29 

27 

40 

39 

30 

25 

41 

41 

30 

35 

42 

40 

31 

30 

42 

44 

31 

40 

43 

37 

32 

32 

44 

44 

33 

34 

45 

46 

33 

32 

46 

46 

34 

34 

47 

49 

36 

37 

50 

51 

36 

38 
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20 
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10 

5 
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Figura 11.3: Diagrama de dispersion con rectas de regresion. 


Con el diagrama de dispersion de la figura 11.3 se ilustran una verdadera recta 
hipotetica de regresion y la recta de regresion ajustada. Este ejemplo se volvera a es- 
tudiar mas adelante, en la section 11.3, cuando se examine el metodo de estimation. 


Otra mirada a las suposiciones del modelo 

Resulta instructive repasar el modelo de regresion lineal simple que se presento con 
anterioridad, y analizar el sentido grafico en que se relaciona con la denominada re- 
gresion verdadera. Se expandira la figura 11.2 con la ilustracion no solo de donde se 
localizan los e* en la grafica, sino tambien lo que implica la suposicion de normalidad 
de dichos e t . 
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Suponga que se tiene una regresion lineal simple con n = 6 valores de x equidis- 
tantes, y un valor unico de y para cada x. Considere la grafica de la figura 11.4. Esa 
ilustracion deberia dar al lector una representation clara del modelo y de las supo- 
siciones implicadas. La recta que aparece en la grafica es la de regresion verdadera. 
Los puntos son (y, x) reales dispersos alrededor de la recta. Cada punto tiene en si 
mismo una distribution normal con el centro de la distribution (es decir, la media 
de y) sobre la recta. Ciertamente, esto es lo que se esperaba, ya que E(Y) = a + fix. 
Como resultado, la verdadera recta de regresion pasa a traves de las medias de 
la respuesta, y las observaciones reales se encuentran sobre la distribution alre- 
dedor de las medias. Tambien observe que todas las distribuciones tienen la misma 
varianza, que se denota con a 2 . Por supuesto, la desviacion entre una y individual y 
el punto sobre la recta sera su valor individual de e. Esto queda claro porque 

Vi - E(Yi) = 2/j - (a + j3xi) = e*. 

Asi, en una x dada, tanto Y como el e correspondiente tienen varianza a 2 . 


y 



Figura 11.4: Observaciones individuates alrededor de la verdadera recta de 
regresion. 


Note asimismo que aqui se ha escrito la verdadera recta de regresion como gy\x = 
a + (3x con la finalidad de reafirmar que la recta pasa a traves de la media de la 
variable aleatoria Y. 


11.3 Los mrnimos cuadrados y el modelo ajustado 

En esta section se estudia el metodo de ajustar una recta de regresion estimada a 
los datos, lo cual equivale a determinar las estimaciones a y b de a y de /?, respecti- 
vamente. Por supuesto, esto permite el calculo de los valores pronosticados a partir 
de la recta ajustada y = a + bx , y hacer otros tipos de analisis y obtener otra infor- 
mation de diagnostico que midan la intensidad de la relation y lo bien que se ajusta 
el modelo. Antes de estudiar el metodo de estimation de los mrnimos cuadrados, 
resulta importante presentar el concepto de residuo. En esencia, un residuo es un 
error en el ajuste del modelo y = a + bx. 
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Residuo: Error en Dado un conjunto de datos de regresion [(a;*, yt); i = 1, 2, . . . , n] y un modelo 
el ajuste ajustado yi = a + bxi, el *-esimo residuo et esta dado por 

e-i = Vi ~ Vi, i = 1 , 2, , n. 

Es evidente que si un conjunto de n residuos es grande, entonces el ajuste del 
modelo no es bueno. Los residuos pequenos son una serial del buen ajuste. Otra re- 
lation interesante y que a veces es util es la siguiente: 

Vi = a + bxi , + e,. 

El uso de la ecuacion anterior deberi'a dar como resultado la aclaracion de la diferen- 
cia entre los residuos, e,, y los errores del modelo conceptual, a. El lector debe tener 
en cuenta que no son observados, y que ei no solo se observan sino que juegan un 
papel importante en el analisis general. 

La figura 11.5 ilustra el ajuste de la recta a este conjunto de datos: y = a + bx, 
y la recta que rcfleja el modelo yy\ x — ol + fix. Por supuesto, ahora a y j3 son para- 
metros desconocidos. La recta ajustada es una estimation de la que genera el modelo 
estadi'stico. Hay que tener presente que la recta yy\x = a + fix es desconocida. 



Figura 11.5: Comparacion de con el residuo e,. 


Metodo de los mmimos cuadrados 

Se deben encontrar los valores de a y 6, estimadores de ay (3, de manera que la suma 
de los cuadrados de los residuos sea minima. La suma residual de los cuadrados con 
frecuencia se denomina suma de cuadrados de los errores respecto de la recta de re- 
gresion, y se denota como SSE. Este procedimiento de minimization para estimar los 
parametros se llama metodo de los mmimos cuadrados. A si. deben encontrarse 
a y b de modo que se minimice 


n n n 

sse = ~ Vi ) 2 = ~ a ~ bx i) 2 - 

i=l i= 1 i= 1 

A1 diferenciar sse con respecto a a y 6, se obtiene 


<9(sse) 


n 

- a- bx^, 

i= 1 


9(sse) 


- 


da 


db 


a — bxi)xi. 
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A1 igualar a cero las derivadas parciales y reacomodar los terminos, obtenemos las 
ecuaciones siguientes (llamadas ecuaciones normales) 

n n n n n 

na + b^Xi = ^yi, a ^ Xi + b ^ x i = X! XiVi ’ 

i— 1 i—l i= 1 i= 1 i=l 

que se resuelven simultaneamente para obtener formulas de calculo para a y b. 


Estimacion de los 
coeficientes de 
regresion 


Dada la muestra {{x^ yi)\ i = 1, 2, . . . , n}, los estimadores de mfnimos cuadrados 
de a y b de los coeficientes de regresion a y /3, se calculan mediante las formulas 


n E Xiy i - E x i L Vi) 
i=l \i= 1 l \i=l J 

n E - ( E x i ) 

2=1 \2 = 1 / 


n 

- x)(y t - y) 

i—l 

n 

E(^ - x) 2 

2=1 


y 


a = 


n 


E y* 

2—1 


n 


b E 


n 


= y — bx. 


En el ejemplo siguiente se ilustra el calculo de a y b usando los datos de la tabla 

11 . 1 . 


Ejemplo 11.1:1 Estime la recta de regresion para los datos de contaminacion de la tabla 11.1. 
Solucion: 33 33 33 33 

^^ = 1104, 5^ = 1124, 53^ = 41,355, J3^= 41 , 0 8 6 
2=1 2 = 1 2=1 2=1 


Por lo tanto, 


= (33)(41 355) - (1104)0 124) = 
(33)(41, 086) - (1104) 2 

1124- (0.903643)(1104) 


33 


= 3.829633. 


Asf, la recta de regresion estimada esta dada por 

y = 3.8296 + 0.9036x. 


Con la recta de regresion del ejemplo 11.1 pronosticanamos una reduccion de 
31% en la demanda de oxfgeno qufmico cuando la reduccion de los solidos totales 
fuera de 30%. El 31% de reduccion en la demanda de oxfgeno qufmico puede inter- 
pretarse como una estimacion de la media de la poblacion gy |30 j o como una estima- 
cion de una observacion nueva en la que la reduccion de solidos totales es de 30%. 
Sin embargo, dichas estimaciones estan sujetas a error. Aun cuando el experimento 
estuviera controlado de manera que la reduccion de los solidos totales fuera de 30%, 
es improbable que la reduccion en la demanda de oxfgeno qufmico que se midie- 
ra fuera exactamente igual a 31%. En realidad, los datos originales registrados en la 
tabla 11.1 indican que se registraron medidas de 25% y 35% en la reduccion de 
la demanda de oxfgeno, cuando la disminucion de los solidos totales era de 30%. 


Ejercicios 
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^Que es lo bueno de los mmimos cuadrados? 

Deberfa observarse que el criterio de los mmimos cuadrados esta disenado para 
brindar una lfnea ajustada que resulte en la “cercama” entre la recta y los puntos 
graficados. Existen muchas formas de medir dicha cercanfa. Por ejemplo, quiza se 

n 

deseara determinar los valores de a y b para los que ^ \yi — Vi\ es minima, o para 

n i—1 

los que | Vi — Vi\ l h es minima. Ambos metodos son viables y razonables. Observe 
i = 1 

que los dos, asi como el procedimiento de los mmimos cuadrados, hacen que se fuerce 
a que los residuos sean “pequenos” en cierto sentido. Debe recordarse que los resi- 
duos son la contraparte empirica de los valores e. La figura 11.6 ilustra un conjunto 
de residuos. Note que la linea ajustada tiene valores predichos como puntos sobre la 
recta y, por ello, los residuos son desviaciones verticales entre los puntos y la recta. 
Como resultado, el procedimiento de los mmimos cuadrados genera una recta que 
minimiza la suma de los cuadrados de las desviaciones verticales entre los 
puntos y la recta. 



x 


Figura 11.6: Los residuos como desviaciones verticales. 


Ej ercicios 


11.1 Un estudio efectuado por VPI&SU para deter- 
minar si las mediciones estaticas de la fuerza de un 
brazo tienen influencia sobre las caracteristicas de “le- 
vantamiento dinamico” de cierto individuo. Veinticin- 
co individuos se sometieron a pruebas de fortaleza y 
luego se les pidio que hicieran una prueba de levanta- 
miento de un peso, en el que este se elevaba en forma 
dinamica por encima de la cabeza. A continuacion se 
presentan los datos. 

a) Estime los valores de a j (3 para la curva de regre- 
sion lineal n Y \ x = n + fix. 

b) Encuentre una estimation puntal de Hy\30- 

c) Grafique los residuos contra las A' (fuerza del bra- 
zo). Comente los resultados. 


Individuo 

Fuerza 
del brazo, x 

Levantamiento 
dinamico, y 

1 

17.3 

71.7 

2 

19.3 

48.3 

3 

19.5 

88.3 

4 

19.7 

75.0 

5 

22.9 

91.7 

6 

23.1 

100.0 

7 

26.4 

73.3 

8 

26.8 

65.0 

9 

27.6 

75.0 

10 

28.1 

88.3 

11 

28.2 

68.3 

12 

28.7 

96.7 
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Individuo 

Fuerza 
del brazo, x 

Levantamiento 
dinamico, y 

13 

29.0 

76.7 

14 

29.6 

78.3 

15 

29.9 

60.0 

16 

29.9 

71.7 

17 

30.3 

85.0 

18 

31.3 

85.0 

19 

36.0 

88.3 

20 

39.5 

100.0 

21 

40.4 

100.0 

22 

44.3 

100.0 

23 

44.6 

91.7 

24 

50.4 

100.0 

25 

55.9 

71.7 


11.2 Las siguientes son las calificaciones de un grupo 
de 9 estudiantes en un examen parcial (a;) y en el exa- 
men final ( y ): 


X 

77 

50 

71 

72 

81 

94 

96 

99 

67 

y 

82 

66 

78 

34 

47 

85 

99 

99 

68 


a) Estime la recta de regresion lineal. 

b) Calcule la calificacion final de un estudiante que ob- 
tuvo 85 en el examen parcial. 

11.3 Se realizo un estudio sobre la cantidad de azucar 
convertida, en cierto proceso, a distintas temperaturas. 
Los datos se codificaron y registraron como sigue: 

Temperatura, x Azucar convertida, y 


1.0 

8.1 

1.1 

7.8 

1.2 

8.5 

1.3 

9.8 

1.4 

9.5 

1.5 

8.9 

1.6 

8.6 

1.7 

10.2 

1.8 

9.3 

1.9 

9.2 

2.0 

10.5 


a) Estime la recta de regresion lineal. 

b) Calcule la cantidad media de azucar convertida 
que se produce cuando la temperatura registrada es 
1.75. 

c) Grafique los residuos contra la temperatura. Co- 
mente el resultado. 

11.4 En cierto tipo de especimen de prueba metalico, 
se sabe que la tension normal sobre este se relaciona 
de manera funcional con la resistencia al corte. Los 
siguientes son un conjunto de datos experimentales ob- 
tenidos para las dos variables: 

Tension normal, x Resistencia al corte, y 


26.8 

26.5 

25.4 

27.3 

28.9 

24.2 

23.6 

27.1 
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Tension normal, x Resistencia al corte, y 


27.7 

23.6 

23.9 

25.9 

24.7 

26.3 

28.1 

22.5 

26.9 

21.7 

27.4 

21.4 

22.6 

25.8 

25.6 

24.9 


a) Estime la recta de regresion gy \x = a + /3x. 

b) Estime la resistencia al corte para una tension nor- 
mal de 24.5 kilogramos por centfmetro cuadrado. 

11.5 Se registraron las cantidades de un compuesto 
qufmico, y, que se disolvfa en 100 gramos de agua a 
distintas temperaturas: 


x (°C) y (gramos) 


0 

8 

6 

8 

15 

12 

10 

14 

30 

25 

21 

24 

45 

31 

33 

28 

60 

44 

39 

42 

75 

48 

51 

44 


a) Encuentre la ecuacion de la recta de regresion. 

b) Grafique la recta en un diagrama de dispersion. 

c) Estime la cantidad de producto qufmico que se di- 
solvera en 100 gramos de agua a 50 °C. 

11.6 Se aplicara un examen de colocacion de matema- 
ticas a todos los estudiantes de nuevo ingreso en una 
universidad pequena. Se niega la inscription al curso 
regular de matematicas a los estudiantes que obtengan 
menos de 35, y se les envfa a una clase remedial. Se 
registraron los resultados del examen de colocacion, y 
las calificaciones finales de 20 estudiantes que tomaron 
el curso regular: 

Examen de colocacion Calificacion en curso 


50 

53 

35 

41 

35 

61 

40 

56 

55 

68 

65 

36 

35 

11 

60 

70 

90 

79 

35 

59 

90 

54 

80 

91 

60 

48 

60 

71 

60 

71 

40 

47 

55 

53 

50 

68 

65 

57 

50 

79 
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a) Elabore un diagrama de dispersion. 

b) Encuentre la ecuacion de la recta de regresion con la 
finalidad de predecir las calificaciones en el curso a 
partir de las del examen de colocation. 

c) Gralique la recta en el diagrama de dispersion. 

d) Si la calificacion aprobatoria minima es 60, /.por de- 
bajo de cual calificacion en el examen de colocation 
deberia negarse a los estudiantes futuros el derecho 
de admision a ese curso? 

11.7 Un comerciante al detalle realizo un estudio 
para determinar la relation que hay entre los gastos de 
la publicidad semanal y las ventas. Registro los datos 
siguientes: 


Costos de publicidad ($) Ventas ($) 


40 

385 

20 

400 

25 

395 

20 

365 

30 

475 

50 

440 

40 

490 

20 

420 

50 

560 

40 

525 

25 

480 

50 

510 


a) Elabore un diagrama de dispersion. 

b) Encuentre la ecuacion de regresion para pronosticar 
las ventas semanales, a partir de los gastos en publi- 
cidad. 

c) Estime las ventas semanales cuando los costos de la 
publicidad sean de $35. 

d) Grafique los residuos contra los costos de publici- 
dad. Haga comentarios. 

11.8 Se recabaron los siguientes datos para determi- 
nar la relation entre la presion y la lectura correspon- 
diente en la escala, para fines de calibration. 

Presion, x (lb/pulg 2 ) Lectura de la escala, y 


10 

13 

10 

18 

10 

16 

10 

15 

10 

20 

50 

86 

50 

90 

50 

88 

50 

88 

50 

92 


a) Obtenga la ecuacion de la recta de regresion. 

b) En esta aplicacion el proposito de la calibration es 
estimar la presion a partir de una lectura observada 
en la escala. Estime la presion para una lectura en 
la escala de 54, usando x = (54 — a)/b. 


11.9 Un estudio sobre la cantidad de lluvia y la de 
contamination removida del aire produjo los siguientes 
datos: 


Cantidad de lluvia 

Partfculas removidas, 

diaria, x (0.01 cm) 

y (m g/m 3 ) 

4.3 

126 

4.5 

121 

5.9 

116 

5.6 

118 

6.1 

114 

5.2 

118 

3.8 

132 

2.1 

141 

7.5 

108 

Obtenga la ecuacion de la recta de regresion para 
pronosticar las partfculas removidas, a partir de la 

cantidad de lluvia diaria. 



b) Estime la cantidad de partfculas removidas cuando 
la lluvia diaria es x = 4.8 unidades. 

11.10 Los siguientes datos son los precios de venta, 
2 , de cierta marca y modelo de automovil usado de w 
anos de edad: 


w (anos) 2 (dolares) 

"1 6350 

2 5695 

2 5750 

3 5395 

5 4985 

5 4895 

Ajuste una curva de la forma fi z \ w = 7 S w mediante la 
ecuacion de regresion muestral no lineal z = cd w . [5m- 
gerencia: Escriba ln£ = Inc 4- (In d)w = a + bw.] 

11.11 El empuje de un motor ( y ) es funcion de la 
temperatura de escape (1) en °F, cuando otras varia- 
bles de importancia se mantienen constantes. Conside- 
re los siguientes datos. 


y 

X 

y 

X 

4300 

1760 

4010 

1665 

4650 

1652 

3810 

1550 

3200 

1485 

4500 

1700 

3150 

4950 

1390 

1820 

3008 

1270 


a) Grafique los datos. 

b) Ajuste una recta de regresion simple a los datos y 
graffquela a traves de ellos. 

11.12 Se realizo un estudio para analizar el efecto 
de la temperatura ambiente, x, sobre la energia elec- 
trica consumida por una planta qufmica, y. Se man- 
tuvieron constantes otros factores y se recabaron los 
datos a partir de una planta piloto experimental. 

a) Grafique los datos. 

b) Estime la pendiente y la intersection en un modelo 
de regresion lineal simple. 
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c) Pronostique el consumo de energi'a para una tempe- 
ratura ambiente de 65 °F. 


y (BTU) 

* (°F) 

y (BTU) 

* (°F) 

250 

27 

265 

31 

285 

45 

298 

60 

320 

72 

267 

34 

295 

58 

321 

74 


11.13 Los siguientes datos son una parte de un con- 
junto clasico denominado “datos piloto de graficacion”, 
que aparecen en Fitting Equations to Data , de Daniel 
y Wood, publicado en 1971. La respuesta y es el con- 
tenido de acido del material producido por valoracion; 
mientras que el regresor x es el contenido de acido or- 
ganico producido por extraction y ponderacion. 


y 

X 

y 

X 

76 

123 

70 

109 

62 

55 

37 

48 

66 

100 

82 

138 

58 

75 

88 

164 

88 

159 

43 

28 


Capitulo 1 1 Regresion lineal simple y correlation 

a) Grafique los datos; ,tia regresion lineal simple parece 
un modelo adecuado? 

b) Haga un ajuste de regresion lineal simple; calcule la 
pendiente y la intersection. 

c) Grafique la recta de regresion en la grafica del inciso a) . 

11.14 Un profesor de la Escuela de Negocios de una 
universidad encuesto a una docena de sus colegas acer- 
ca del numero de reuniones profesionales a que acu- 
dieron en los ultimos cinco anos (X), y el numero de 
artfculos que publicaron en revistas arbitradas (Y) du- 
rante el mismo periodo. A continuation se presenta el 
resumen de los datos: 

n = 12, x = 4, y = 12, 

n n 

= 232, y~^2 uyi = 318. 

i=l i= 1 

Ajuste un modelo de regresion lineal simple entre x 
y y averiguando las estimaciones de la intersection y 
la pendiente. Comente acerca de si la asistencia a re- 
uniones profesionales originarfa una mayor cantidad de 
artfculos. 


11.4 Propiedades de los estimadores de los mrnimos cuadrados 

Ademas de los supuestos de que el termino del error en el modelo 

Yi = a + bxi + ei 


es una variable aleatoria con media igual a cero y varianza c 2 constante, suponga 
que ademas se acepta que ei, £ 2 , • • • , e n son independientes entre una ejecucion y otra 
del experimento, lo cual brinda un fundamento para calcular las medias y varianzas 
de los estimadores de a y /3. 

Es importante recordar que nuestros valores de a y b, con base en una muestra 
dada de n observaciones, tan solo son estimaciones de parametros verdaderos a y (3. 
Si se repite el experimento una y otra vez, usando en cada ocasion los mismos valores 
muestrales fijos de x, las estimaciones resultantes de a y /3 muy probablemente 
difieran de un experimento a otro. Estas estimaciones distintas pueden verse como 
valores adoptados por las variables aleatorias A y B] en tanto que a y b son reali- 
zaciones especfficas. 

Como los valores de x permanecen fijos, los valores de A y B dependen de las 
variaciones de los valores de y o, con mas precision, de los valores de las varia- 
bles aleatorias Yi, Y 2 , . . . , Y n . Las suposiciones sobre la distribution implican que 
las Yi, i = 1, 2, . . . , n, tambien esten distribuidas con independencia, con media 
gY\xi = ot + /3xi y varianzas iguales <r 2 ; es decir, 

a y\ x . = <J 2 para i = 1 , 2 , . . . , n. 


Media y varianza de los estimadores 

En la exposition que sigue se demuestra que el estimador B esta insesgado para /?, y 
se obtienen las varianzas tanto de A como de B. Esto inicia una serie de desarrollos 
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que llevan a la prueba de hipotesis y a la estimacion de intervalos de confianza para 
la intersection y la pendiente. 

Como el estimador 


B 


J2( X i — x)(Yi — Y) J2( X i~ X ) Y i 

i = 1 2=1 


E(^ - x ) 2 


Ete - X Y 

i=l 


es de la forma ^ CjXi , donde 
2=1 


Xj — x 


■ , % — 1, 2, . . . j 71, 


EOi - x ) 2 
2=1 


y del corolario 4.4 se concluye que 


E {xi-x)E(Yi) J2(xi - x)(a + f3xi) 


Pb — E{B) 


i = 1 


2=1 


Efc* - x ) 2 
2=1 


= /?, 


Efc* - x ) 2 
2=1 


y despues, con el corolario 4.10, 


2 2=1 

O’ R — 


(a* - z) 2 <jf 


EO; - x) 2 


E {.Xi - x) 2 


Puede demostrarse (ejercicio 11.15 en la pagina 412) que la variable aleatoria A tiene 
la media 


E x i 

Pa = & y la varianza cr 2 . 

— x ) 2 

2 = 1 

De estos resultados, es evidente que los estimadores de minimos cuadrados 
tanto para a como para (3 son insesgados. 


Particion de la variabilidad total y estimacion de a 2 

Para hacer inferencias sobre a y ft es necesario llegar a una estimation del para- 
metro a 2 que aparece en las dos formulas anteriores de la varianza de A y de B. El 
parametro cr 2 , el modelo de la varianza del error, rcfleja una variation aleatoria o 
variation del error experimental alrededor de la recta de regresion. En gran parte de 
lo que sigue se recomienda emplear la notation 

n n n 

Sxx — ^ ^ (^2 _ 1 Syy — ^ ^ {Ui — y ) 1 S X y ^ ^ (^2 _ ~ V) * 

2=1 2=1 2=1 
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De manera que la suma de los cuadrados de los errores puede escribirse asf: 


SSE = ^(yi - a- bxi) 2 = Y^KVi ~ y) ~ K x i ~ x )] 2 
2 = 1 2=1 


n n n 

= - v? - 2b ^ ~2( x i - x )(yi -y) + b 2 Efo - x) 2 

2=1 2=1 2=1 


^yy H - b S X x ^yy &S X y > 


que es el paso final que surge del hecho de que b = S xy /S xx . 


Teorema 11.1: 


Un estimador insesgado de cr 2 es 

^2 _ SSE _ (■ y l - iji ) 2 _ Syy - bS xy 

n — 2 n — 2 n — 2 

2=1 


La prueba del teorema 11.1 se deja como ejercicio para el lector (consulte el ejer- 
cicio de repaso 11.61). 


El estimador de a 2 como error cuadratico medio 

Con la finalidad de obtener cierta intuicion sobre el estimador <r , hay que observar 
el resultado del teorema 11.1. El parametro cr 2 mide la varianza o las desviaciones 
cuadradas entre los valores de Y y su media, dada por gy\x (es decir, desviacio- 
nes cuadradas entre Y y a + (3x). Por supuesto, a + /3x se estima con y = a + bx. 
Asi, tendrfa sentido que la varianza cr 2 quedara mejor descrita como la desviacion 
cuadrada de una observacion cualquiera, y t , con respecto a la media estimada, yi, 
que es el punto correspondiente sobre la recta ajustada. Entonces, los valores (yi — yi) 2 
revelan la varianza apropiada, en forma muy parecida a como los valores (yi — y) 2 mi- 
den la varianza cuando se muestrea en un escenario que no es de regresion. En otras 
palabras y estima la media en la ultima situation sencilla, en la cual iji estima la 
media de yi en una estructura de regresion. Ahora, ique significa el divisor n — 27 
En las secciones que siguen, se observara que estos son los grados de libertad aso- 
ciados con el estimador s 2 para cr 2 . En el escenario i.i.d. normal estandar se resta 
de n un grado de libertad en el denominador. Y una explication razonable es que se 
estima un parametro, que es la media p, por medio de y, pero en el problema de la 
regresion se estiman dos parametros, que son ay P, con ay b. Asi, el parametro 
importante cr 2 , que se estima mediante 

n 

* 2 = E(«) 2 /(n- 2 ), 

i= 1 

se denomina error cuadratico medio, e ilustra un tipo de media (division entre 
n — 2) de los residuos cuadrados. 

11.5 Inferencias que conciernen a los coeficientes de regresion 

Ademas de tan solo estimar la relation lineal entre x y Y para fines de prediction, 
el experimentador podria estar interesado en hacer ciertas inferencias acerca de la 
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Intervalo de 
confianza para f3 


Ejemplo 11.2:1 
Solucion: 


pendiente y la intersection. Debe estarse dispuesto a hacer la suposicion adicional de 
que cada e», i = 1, 2, . . . , n, tiene distribution normal, con la finalidad de permitir 
la prueba de hipotesis y la construction de intervalos de confianza sobre ay/?. Esta 
suposicion implica que Y\, Y 2 , ■ • • , Y n tambien estan distribuidas en forma normal, 
cada una con una distribucion de probabilidad n a + f3xi , a). Como A y B son 
funciones lineales de variables normales independientes, del teorema 7.11 se deduce 
que Ay B tienen distribucion normal con distribuciones de probabilidad n(a\ a, <t a) 
y n{b\ (3, a a), respectivamente. 

Se ve que la suposicion de normalidad, un resultado mucho mas analogo al dado 
en el teorema 8.4, permite concluir que (n — 2 )S 2 /a 2 es una variable chi-cuadrada 
con n — 2 grados de libertad, independiente de la variable aleatoria B. Entonces, el 
teorema 8.5 garantiza que el estadi'stico 


T (B~ (3)/(a/VS^) = B-/3 
S/cj S/VSZ 

tenga una distribucion t con n — 2 grados de libertad . El estadi'stico T se usa para 
construir un intervalo de confianza de (1 — a)100% para el coeficiente (3. 


Un intervalo de confianza de 100(1 — a)100% para el parametro (3 en la recta de 
regresion fxy\x = a + /3x e s 


b — 



< (3 < b + t a / 2 —r==, 

V XX 


donde t a / 2 es un valor de la distribucion t con n — 2 grados de libertad. 


Encuentre un intervalo de confianza de 95% para (3 en la recta de regresion fiy \ x = 
a + /3x, con base en los datos de contamination de la tabla 11.1. 

A partir de los resultados dados en el ejemplo 11.1, se determina que 

S xx = 4152.18, S xy = 3752.09. 

Ademas, se encuentra que S yy = 3713.88. Recuerde que b = 0.903643. Entonces, 

2 _ Syy - bS xy _ 3713.88 - (0.903643)(3752.09) _ 


Por lo tanto, al sacar rai'z cuadrada obtenemos s = 3.2295. Usando la tabla A. 4, se 
encuentra que to . 025 ~ 2.045 para 31 grados de libertad. Asf, un intervalo de con- 
fianza de 95% para [3 es 


0.903643 


(2.045)(3.2295) 0 ^ (2.045) (3.2295) 

^4152. 18 v / 4152.18 


que se simplifica a 


0.8012 < !3< 1.0061. 


J 
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Prueba de hipotesis sobre la pendiente 

Para probar la hipotesis nula Hq de que (3 = f3o, contra una alternativa posible, uti- 
lizamos de nuevo la distribution t con n — 2 grados de libertad, con la finalidad de 
establecer una region cri'tica y despues basar nuestra decision sobre el valor de 


ft — Po 
S / "\/ Rxx 


El metodo se ilustra con el ejemplo siguiente. 


Ejemplo 11.3:1 Usando el valor estimado de b = 0.903643 del ejemplo 11.1, pruebe la hipotesis de 
que f3 = 1.0 contra la alternativa de que j3 < 1.0. 

Solucion: Las hipotesis son Hq: (3 = 1.0 y Hp. (3 < 1.0. Por lo tanto, 

0.903643 - 1.0 

t = = -1.92, 

3.2295/V4152.18 

con n — 2 = 31 grados de libertad (Pss 0.03). 

Decision: El valor t, es significativo al nivel de 0.03, lo cual sugiere evidencia so- 
lida de que (3 < 1.0. 

Una prueba t importante sobre la pendiente es la prueba de hipotesis 

H 0 - (3= 0, 

Hp. 


Cuando no se rechaza la hipotesis nula, la conclusion es que no hay relacion lineal 
significativa entre E(y) y la variable independiente x. La grafica de los datos del 
ejemplo 11.1 sugeriria que existe una relacion lineal. Sin embargo, en ciertas aplica- 
ciones en las que cr 2 es grande y por ende hay “ruido” considerable en los datos, una 
grafica, aunque util, quiza no produzca information clara para el investigador. El 
rechazo anterior de Hq implica que hay una relacion lineal significativa. 

La figura 11.7 muestra una salida de MINITAB de la prueba t para 

H 0 : /3 = 0, 

Hr !3^ 0 , 


con los datos del ejemplo 11.1. Observe el coeficiente de regresion (Coef), el error 
estandar (Coef. SE), el valor t (T), y el valor P(P). Se rechaza la hipotesis nula. Es 
claro que existe una relacion lineal significativa entre la demanda media del oxi'geno 
qui'mico y la reduction de los solid os. Note que el estadi'stico t se calculo como 

coeficiente b 

f = error estandar = s/y/SZ' 

El no rechazar Hq: (3 = 0, sugiere que no hay una relacion lineal entre Y y x. La figura 
11.8 es una ilustracion de la implication de este resultado. Puede significar que los 
cambios de x tienen poco efecto sobre los cambios de YJ como se ve en el inciso a). 
Sin embargo, tambien puede indicar que la relacion verdadera es no lineal, como se 
aprecia en b ) . 
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Regression Analysis: COD versus Per_Red 

The regression equation is COD = 3.83 + 0.904 Per_Red 


Predictor 

Coef 

SE Coef 

T 

P 


Constant 

3.830 

1.768 

2.17 

0.038 


Per_Red 0 

.90364 

0.05012 

18.03 

0.000 


S = 3.22954 

R-Sq 

= 91.37. 

R-Sq(adj) = 91 

.07. 

Analysis of 

Variance 




Source 

DF 

SS 

MS 

F 

P 

Regression 

1 

3390.6 

3390.6 

325.08 

0.000 

Residual Error 31 

323.3 

10.4 



Total 

32 

3713.9 





Figura 11.7: Salida de MINITAB de la prueba t para los datos del ejemplo 11.1. 



a) b) 

Figura 11.8: No se rechaza la hipotesis Hq: (3 = 0. 


Cuando se rechaza Hq : (3 = 0, existe la implication de que el termino lineal en 
x que reside en el modelo explica una portion significativa de la variabilidad de Y. 
Las dos graficas que aparecen en la figura 11.9 ilustran los escenarios posibles. Como 
se ilustra en el inciso a) de la figura, el rechazo sugiere que la relation es, en efecto, 
lineal. Como se ve en el inciso b ), se sugiere que aunque el modelo no contenga un 
efecto lineal, se tendrfa una mejor representation si se incluye un termino polinomial 
(tal vez cuadratico) (es decir, terminos que complementen el termino lineal). 
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a) b) 

Figura 11.9: Se rechaza la hipotesis de que H 0 : (3 = 0. 


Inferencia estadfstica sobre la intersection 

Los intervalos de confianza y la prueba de hipotesis sobre el coeficiente a pueden 
establecerse por el hecho de que A esta distribuida en forma normal. No es diffcil 
demostrar que 


T 



S 


]T x 2 J{nS xx ) 


tiene una distribucion t con n — 2 grados de libertad, de manera que podemos cons- 
truir un intervalo de confianza de (1 — a) 100% para a. 


Intervalo de 
confianza para a 


Un intervalo de confianza de 100(1 
regresion py\ x = ot + fix es 


a)% para el parametro a en la recta de 


a — t 


a/2" 



\/ aS x 


< ot < a + t a j2 



VnS~x 


donde t a / 2 es un valor de la distribucion t con n — 2 grados de libertad. 

Observe que el sfmbolo a se utiliza aquf en dos formas sin relacion alguna entre 
si: primero como el nivel de significancia y, luego, como la interseccion de la recta 
de regresion. 


Ejemplo 11.4:1 Encuentre un intervalo de confianza de 95% para a en la recta de regresion py\x = 
a + (3x, con base en los datos de la tabla 11.1. 

Solucion: En los ejemplos 11.1 y 11.2 se encontro que 


S xx = 4152.8 


y 


s = 3.2295. 
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Del ejemplo 11.1 se tiene que 

n 

£>?= 41, 086 y a = 3.829633. 

i— 1 

Con el empleo de la tabla A. 4, se encuentra que £ 0.025 ~ 2.045 para 31 grados de 
libertad. Por lo tanto, un intervalo de confianza de 95% para a es 


3.829633 


(2. 045)(3. 2295)^41, 086 
\J (33)(4152.18) 


<a < 3.829633 


(2.045)(3.2295)y/41, 086 
v /(33)(4152.18) 


que se simplifica a 0.2132 < a < 7.4461. 

Para probar la hipotesis nula Hq de que a = ao contra una alternativa posible, 
utilizamos la distribution t con n — 2 grados de libertad para establecer una region 
cri'tica y, luego, basar la decision sobre el valor de 


t = 


a — ao 


s JT^ x i/(nS xx ) 


Ejemplo 11.5:1 Usando el valor estimado de a = 3.829640 del ejemplo 11.1, pruebe la hipotesis de 
que a = 0 con un nivel de significancia de 0.05, contra la alternativa de que a^0. 
Solucion: Las hipotesis son Hq: a = 0 y H\: a ^0. Por lo tanto, 

3.829633 -0 

t = ■ = 2.17, 

3.2295^/41, 086/ ((33) (4152. 18)) 

con 31 grados de libertad. Asf, P= valor Pm 0.038 y concluimos que a/0. Observe 
que esto tan solo es Coef/StDev, como se aprecia en la salida de MINITAB de la 
figura 11.7. El SE Coef es el error estandar de la intersection estimada. 

Una medida de la calidad del ajuste: el coeficiente de determinacion 

Observe el lector que en la figura 11.7 esta dado un parametro denotado con R-Sq, 
cuyo valor es 91.3%. Esta cantidad, R 2 , se denomina coeficiente de determina- 
cion y es una medida de la proporcion de la variabilidad explicada por el 
modelo ajustado. En la section 11.8 se introducira el concepto del enfoque del ana- 
lisis de varianza, para la prueba de hipotesis en la regresion. El enfoque del analisis 

n 

de varianza utiliza la suma cuadratica de los errores sse = ^ ( Hi— Vi ) 2 y de la suma 

i=l 

n 

total de los cuadrados corregida sst = X] (Vi ~Vi ) 2 - Esta ultima representa la va- 

2=1 

riacion en los valores de respuesta que idealmente serfan explicados con el modelo. 
El valor sse es la variation debida al error, o variation no explicada. Resulta 
claro que si SSE = 0, toda variation queda explicada. La cantidad que representa la 
variation explicada es SST — sse. R 2 es el 

Coeficiente de determinacion: R 2 = 1 — 


SST ’ 
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Note que si el ajuste es perfecto, todos los residuos son cero , y asf R 2 = 1.0. Pero si 
SSE es tan solo un poco menor que ssr , R 2 ss 0. Observe en la salida de la figura 
11.7 que el coeficiente de determination sugiere que el modelo ajustado a los datos 
explica el 91.3% de la variabilidad de la respuesta, la demanda de oxigeno qufmico. 

Las graficas que de la figura 11.10 brindan una ilustracion de un buen ajuste 
(R 2 ks 1.0) en a), y un ajuste deficiente (R 2 « 0) en b). 




Figura 11.10: Graficas que ilustran un ajuste muy bueno y otro deficiente. 


Errores en el uso de R 2 

Los analistas citan con mucha frecuencia los valores de R 2 , quiza debido a su sim- 
plicidad. Sin embargo, hay errores en su interpretation. La confiabilidad de R 2 es 
funcion del tamaho del conjunto de los datos de la regresion y del tipo de aplicacion. 
Es claro que 0 < R 2 < 1, y el limite superior se alcanza cuando el ajuste a los datos 
es perfecto (es decir, todos los residuos son cero). ^Ciial es un valor aceptable de i? 2 ? 
Se trata de una pregunta diffcil de contestar. Es seguro que un quhnico que tratara 
de establecer una calibration lineal de una pieza de equipo de alta precision, por ex- 
periencia, esperarfa un valor muy alto de R 2 (quiza superior a 0.99); mientras que un 
cientffico del comportamiento, que trabaja con datos afectados por la variabilidad 
del comportamiento humano, quiza se sentirfa afortunado si experimentara un valor 
de R? tan grande como 0.70. Un individuo con pericia en el ajuste de modelos tiene 
la sensibilidad para saber cuando un valor es suficientemente grande, dada la situa- 
tion que enfrente. Es claro que algunos fenomenos cientfficos llevan por sf mismos a 
modelar con mayor precision que otros. 

El criterio de R 2 es peligroso de utilizar al comparar modelos en competencia 
para el mismo conjunto de datos. Cuando se agregan terminos adicionales al modelo 
(como un regresor mas), disminuye SSE y con ello se incrementa R 2 (al menos no 
disminuye), lo cual implica que R 2 puede hacerse artificialmente alto con la practica 
inapropiada de sobreajustar (es decir, incluir demasiados terminos en el modelo). 
Asf, el incremento inevitable de R 2 al agregar un terminos adicionales no implica 
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que estos fueran necesarios. En realidad, para predecir los valores de la respuesta 
el modelo simple puede ser superior. En el capftulo 12 se estudiara con cletalle el 
papel del sobreajuste y su influencia sobre la capacidad de prediccion, cuando se vea 
el concepto de los modelos que implican mas de un solo regresor. En este mo- 
mento baste decir que para seleccionar un modelo no se debe suscribir un proceso 
de selection que unicamente incluya la consideration de R 2 . 


11.6 Prediccion 

Hay varias razones para construir un modelo de regresion lineal. Una de ellas es, 
desde luego, predecir valores de respuesta para uno o mas valores de la variable in- 
dependiente. Esta seccion se centra en los errores asociados con la prediccion. 

La ecuacion y = a + bx puede utilizarse para predecir o estimar la respuesta 
media p Y \x 0 en x = xo, donde xo no necesariamente es uno de los valores prees- 
tablecidos, o puede emplearse para pronosticar un solo valor yo de la variable Yo, 
cuando x = Xq. Se esperarfa que el error de prediccion fuera mayor para el caso de 
un solo valor pronosticado, que para aquel en que se predice una media. Entonces, 
esto afectaria el ancho de los intervalos para los valores que se predicen. 

Suponga el lector que el experimentador desea construir un intervalo de confian- 
za para py\x„- Se debe usar el estimador puntual Yo = A + Bx o para estimar p Y \x 0 
= a + fix. Puede demostrarse que la distribucion muestral de Yo es normal con 
media 


Py\x o = E(Y 0 ) = E(A + Bx 0 ) =a + /3x 0 = p Y \x 0 


y varianza 

2 2 2 
°> 0 = a A+Bx o = a Y+B(x o-x) = 

esta ultima surge del hecho de que Cov(Y , B) = 0 (vease el ejercicio 11.6 en la pa- 
gina 412). Asf, ahora es posible construir un intervalo de confianza de (1 — a)100% 
sobre la respuesta media py\x 0 a partir del estadlstico 

T = Yp - p Y \xq 

Sy/l/n+ (x 0 ~x) 2 /S xx ’ 

que tiene distribucion t con n — 2 grados de libertad. 

Intervalo de 
confianza para 

HY\x 0 


Un intervalo de confianza de (1 — a) 100% para la respuesta media py\x 0 es 


Vo ~ t a /2 s \ — b 


1 (x 0 - x ) 2 




< My \x 0 <Vo + t a/ 2 sJ ^ 


donde t a / 2 es un valor de la distribucion t con n — 2 grados de libertad. 


1- (ttp - x) 
Tl S X x 


Ejemplo 11.6:1 Con los datos de la tabla 11.1, construya lfmites de confianza de 95% para la res- 
puesta media fly \x 0 - 
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Solucion: De la ecuacion cle regresion encontramos que para Xo = 20% de reduction de solidos, 
digamos, 


y o = 3.829633 + (0.903643) (20) = 21.9025. 


Ademas, x = 33.4545, S xx = 4152.18, s = 3.2295 y to . 025 ~ 2.045 para 31 grados de 
libertad. Por lo tanto, un intervalo de confianza de 95% para gy |20 es 


21.9025 - (2.045)(3.2295) 


1 (20 - 33.4545) 2 

H ^ ^ < Mr 1 20 


33 


4152.18 


< 21.9025- 


(2.045) (3.2295) \/ ^ 


(20 - 33.4545) 2 
4152.18 


o, simplemente, 20.1071 < gy\ 20 < 23.6979. 

A1 repetir los calculos anteriores para cada uno de los diferentes valores de Xq, 
se obtienen los lfmites de confianza correspondientes para cada gy \ Xo . En la figura 
11.11 se muestran los datos de los puntos, la recta de regresion estimada y los lfmites 
de confianza superior e inferior sobre la media de Y\x. 



Figura 11.11: Lfmites de confianza para el valor medio de Y\x. 


En el ejemplo 11.6 se tiene el 95% de confianza en que la demanda de oxfgeno 
qufmico de la poblacion estara entre 20.1071% y el 23.6979%, cuando la reduction 
de solidos sea de 20%. 


Prediction del intervalo 

Otro tipo de intervalo que con frecuencia se malinterpreta y se confunde con aquel 
dado para gy\ x es el intervalo de la prediction para una respuesta futura observada. 
En realidad, en muchos casos el intervalo de la prediction es mas relevante para el 
cientffico o ingeniero, que el intervalo de confianza sobre la media. En el ejemplo del 
contenido de alquitran y la temperatura de entrada, mencionado en la section 11.1, 
serfa de interes no solo estimar la media del contenido de alquitran a una tempera- 
tura especffica, sino tambien en la construccion de un intervalo que refleje el error 
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Intervalo de 
prediction para yo 


Ejemplo 11.7:1 
Solucion: 


en la prediction de una cantidad futura observada del contenido de alquitran a la 
temperatura dada. 

Para obtener un intervalo de prediction para cualquier valor unico yo de la 
variable Yo> es necesario estimar la varianza de las diferencias entre las ordenadas 
y o, obtenidas de las rectas de regresion calculadas en el muestreo repetido cuando 
x = Xo, y la ordenada verdadera correspondiente yo- Se puede pensar en la diferencia 
Vo ~ Vo como un valor de la variable aleatoria Yq ~ Yo, cuya distribucion muestral se 
demuestre que sea normal con media 

^Yo-Yo = E(Yq — Yq) = E[A + Bxq — (a + f3xo + eo)] = 0 


y varianza 

l + l + (x 2 _i£- 

^ &XX 

Asi, un intervalo de prediccion de (1 — a) 100% para un solo valor pronosticado yo 
puede construirse a partir del estadistico 


T Y 0 -Y 0 a A+Bx 0 -to a Y + B(x 0 -x)-eo 


T Yo-Yo 

Sy/1 + l/n + (xq - x) 2 /S xx ’ 

que tiene una distribucion t con n — 2 grados de libertad. 


Un intervalo de prediccion de (1 — a) 100% para una sola respuesta yo esta dado 
por 


Vo ~ t a /2 s 

donde t a /2 es un valor de la distribucion t con n — 2 grados de libertad. 

Es claro que hay una diferencia entre el concepto de un intervalo de confianza y 
el del intervalo de prediccion antes clescrito. La interpretation del intervalo de con- 
fianza es identica a la que se describio para todos los intervalos de confianza sobre 
los parametros de la poblacion estudiados en el libro. En verdad, yy \ Xo es un parame- 
tro de la poblacion. Sin embargo, el intervalo de la prediccion calculado representa 
un intervalo que tiene una probabilidad igual a 1 — a de contener no un parametro 
sino un valor futuro de yo de la variable aleatoria Yo- 


1 (xq — x) 2 


1 + 


S T 


< yo < Vo + ta/ 2 s \ 1 + — + 


1 (x 0 - x) 2 


Sr 


Con los datos de la tabla 11.1, construya un intervalo de prediccion de 95% para yo 
cuando £o = 20%. 

Tenemos que n = 33, Xq = 20, x = 33.4545, yo = 21.9025, S xx = 4252.18, s = 3.2295 
y fo .025 ~ 2.045 para 31 grados de libertad. Por lo tanto, un intervalo de prediccion 
de 95% para yo es 


21.9025 - (2.045) (3.2295) yl + — 


(20 - 33.4545) 2 
4152.18 


< Vo 


< 21.9025 + (2.045)(3.2295)\/l + ^ 33 ' 4545 ^ 


33 


4152.18 


que se simplifica para 15.0585 < yo < 28.7464. 


J 
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La figura 11.12 muestra otra grafica de los datos de la demanda de oxfgeno 
qufmico, con los intervalos de confianza de la respuesta media y con el intervalo 
de prediccion sobre una respuesta individual graficada. En el caso de la respuesta 
media, la grafica refleja un intervalo mucho mas angosto alrededor de la recta de 
regresion. 



0 10 20 30 40 50 

Reduction de solidos 


Figura 11.12: Intervalos de confianza y prediccion para los datos de la demanda de 
oxfgeno qufmico; las bandas interiores indican los lfmites de confianza para las res- 
puesta medias, y las exteriores senalan los lfmites de prediccion para las respuestas 
futuras. 


Ej ercicios 


11.15 Suponga que los e, son normales, independien- 
tes, con media igual a cero y varianza comun a 2 , de- 
muestre que A, el estimador de mfnimos cuadrados de a 
en Py\x = a + f3x tiene distribucion normal con media 
a y varianza 


2 



n Y, ( x i ~ x ) 2 

i=i 


donde los u son independientes y tienen distribucion 
normal, con medias iguales a cero y varianzas a 2 igua- 
les, demuestre que Y y 

n 

Y{xi - x)Y t 

B = ^ 

E(*< - x ) 2 

i=i 

tienen covarianza de cero. 


11.16 Para un modelo de regresion lineal simple 
Yi = a + pXi + ti, i = 1, 2, . . . , n, 


11.17 En relation con el ejercicio 11.1, de la pagina 
397, 

a) evalue s 2 ; 
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b) pruebe la hipotesis de que (3 = 0 contra la alternati- 
va de que (3 ^ 0 con un nivel de significancia de 0.05, 
e interprete la decision resultante. 

11.18 En relation con el ejercicio 11.2 de la pagina 
398, 

a) evalue s 2 ; 

b) construya un intervalo de confianza de 95% para a; 

c) construya un intervalo de confianza de 95% para (3 . 

11.19 Con referenda al ejercicio 11.3 de la pagina 
398, 

a) evalue s 2 ; 

b) construya un intervalo de confianza de 95% para a; 

c) construya un intervalo de confianza de 95% para (3 . 

11.20 En relacion con el ejercicio 11.4 de la pagina 
398, 

a) evalue s 2 ; 

b ) construya un intervalo de confianza de 99% para a; 

c) construya un intervalo de confianza de 99% para (3 . 

11.21 Para el ejercicio 11.5 de la pagina 398, 

a) evalue s 2 ; 

b ) construya un intervalo de confianza de 99% para a; 

c) construya un intervalo de confianza de 99% para (3. 

11.22 Pruebe la hipotesis de que a = 10 en el ejerci- 
cio 11.6 de la pagina 398, contra la alternativa de que 
a < 10. Utilice un nivel de significancia de 0.05. 

11.23 Pruebe la hipotesis de que (3 = 6 en el ejerci- 
cio 11.7 de la pagina 399, contra la alternativa de que 
(3 < 6. Utilice un nivel de significancia de 0.025. 

11.24 Con el valor de s 2 que se hallo en el ejercicio 
11.18a), construya un intervalo de confianza de 95% 
para yy |85 en el ejercicio 11.2 de la pagina 398. 

11.25 En relacion con el ejercicio 11.4 de la pagina 
398, utilice el valor de s 2 que encontro en el ejercicio 
11.20a) para calcular 

a) un intervalo de confianza de 95% para la resistencia 
media al corte cuando x = 24.5; 

b) un intervalo de prediccion de 95% para un solo valor 
pronosticado de la resistencia al corte cuando x = 
24.5. 

11.26 Utilizando el valor de s 2 que se hallo en el ejer- 
cicio 11.19a), grafique la recta de regresion y las ban- 
das de confianza de 95% para la respuesta media yy\ x 
con los datos del ejercicio 11.3 en la pagina 398. 

11.27 Con el valor de s 2 que se obtuvo en el ejercicio 
11.19a), construya un intervalo de confianza de 95% 


para la cantidad de azucar convertida correspondiente 
ai = 1.6, en el ejercicio 11.3 de la pagina 398. 

11.28 En relacion con el ejercicio 11.5 de la pagina 
398, utilice el valor de s 2 que se obtuvo en el ejercicio 
11.21a) para calcular 

a) un intervalo de confianza de 99% para la cantidad 
promedio del producto qufmico que se disolvera en 
100 gramos de agua a 50 °C; 

b) un intervalo de prediccion de 99% para la cantidad 
de producto qm'mico que se disolvera en 100 gramos de 
agua a 50 °C. 

11.29 Considere la regresion del mimero de millas 
para ciertos automoviles, en millas por galon (mpg) 
y su peso en libras (wt). Los datos son del Consumer 
Reports (abril de 1997). En la figura 11.13 se presenta 
parte de la salida del sas para el procedimiento. 

a) Estime las millas para un vehfculo que pesa 4000 
libras. 

b) Suponga que los ingenieros de Honda afirman que, 
en promedio, el Civic (o cualquier otro modelo de 
vehfculo que pese 2440 libras) recorre mas de 30 
mpg. Con base en los resultados del analisis de re- 
gresion, /.cree el lector dicha afirmacion? /.Por que? 

c) Los ingenieros de diseno para el Lexus ES300 tienen 
por objetivo lograr 18 mpg como el ideal para dicho 
modelo (o cualquier otro que pese 3390 libras), aun- 
que se espera que liaya cierta variation. /.Es proba- 
ble que sea realista ese objetivo de valor? Comente 
al respecto. 

11.30 Demuestre que para el caso del ajuste por mf- 
nimos cuadrados para el modelo de regresion lineal 
simple 

Yi = a + (3xi + ti, i = 1, 2, . . . , n, 

n n 

que £ (yi - yi) = £ a = 0. 

i= 1 i= 1 

11.31 Considere la situation del ejercicio 11.30; pero 
suponga que n = 2 (es decir, tan solo se dispone de dos 
puntos de los datos). Proporcione un argumento sobre 
que la recta de regresion por mfnimos cuadrados dara 
como resultado (yi — y i) = (y% — 3/2) = 0. Tambien 
demuestre que en ese caso R? = 1.0. 

11.32 Existen aplicaciones importantes en las que 
debido a restricciones cientfficas conocidas, la recta de 
regresion debe pasar por el origen (es decir, la in- 
tersection debe estar en el cero). En otras palabras, el 
modelo debe ser 

Yi = /3xi + ei, i— 1, 2, . . . , n, 

y tan solo se requiere estimar un parametro. Con fre- 
cuencia, dicho modelo se denomina modelo de regre- 
sion por el origen. 
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a) Demuestre que el estimador de mi'nimos cuadrados 
para la pendiente es 

‘=(e **)/(!>')■ 

b) Demuestre que (r| = a 2 / (^Y2 x i 

c) Demuestre que b del inciso a) es un estimador inses- 
gado para /3. Es decir, demuestre que E(B) = /3. 

11.33 Dado el conjunto de datos 
y x y x 
7 2 40 10 

50 15 70 20 

100 30 
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a) Grafique los datos. 

b) Ajuste una recta de regresion “por el origen” . 

c) Grafique la recta de regresion sobre la grafica de los 
datos. 

d) De una formula general (en terminos de las yi y la 
pendiente b) para el estimador de a 2 . 

e) Para este caso, de una formula para Var(y)- i = 1, 
2 ,..., n. 

/) Grafique los lfmites de confianza de 95% para la res- 
puesta media sobre la grafica alrededor de la recta 
de regresion. 

11.34 Para los datos del ejercicio 11.33, encuentre un 

intervalo de prediction de 95% en x = 25. 


Root MSE 1.48794 R-Square 0.9509 

Dependent Mean 21.50000 Adj R-Sq 0.9447 

Parameter Estimates 






Parameter 

Standard 





Variable 


DF 

Estimate 

Error 

t Value 

Pr > 1 t | 



Intercept 


1 

44. 

.78018 

1.92919 

23.21 

<•0001 



WT 


1 

-0. 

.00686 0 

.00055133 

-12.44 

<.0001 


MODEL 

WT 

MPG 


Predict 

LMean 

UMean 

Lpred 

Upred 

Residual 

GMC 

4520 

15 


13.7720 

11.9752 

15.5688 

9.8988 

17.6451 

1.22804 

Geo 

2065 

29 


30.6138 

28.6063 

32.6213 

26.6385 

34.5891 

-1.61381 

Honda 

2440 

31 


28.0412 

26.4143 

29.6681 

24.2439 

31.8386 

2.95877 

Hyundai 

2290 

28 


29.0703 

27.2967 

30.8438 

25.2078 

32.9327 

-1.07026 

Inf initi 

3195 

23 


22.8618 

21.7478 

23.9758 

19.2543 

26.4693 

0.13825 

Isuzu 

3480 

21 


20.9066 

19.8160 

21.9972 

17.3062 

24.5069 

0.09341 

Jeep 

4090 

15 


16.7219 

15.3213 

18.1224 

13.0158 

20.4279 

-1.72185 

Land 

4535 

13 


13.6691 

11.8570 

15.4811 

9.7888 

17.5493 

-0.66905 

Lexus 

3390 

22 


21.5240 

20.4390 

22.6091 

17.9253 

25.1227 

0.47599 

Lincoln 

3930 

18 


17.8195 

16.5379 

19.1011 

14.1568 

21.4822 

0.18051 


Figura 11.13: Salida del SAS para el ejercicio 11.29. 


11.7 Seleccion de un modelo de regresion 

Gran parte de lo que se ha presentado lrasta aquf acerca de la regresion que invo- 
lucra una sola variable independiente depende de la suposicion de que el modelo 
elegido es correcto, la presuncion de que gy \x se relaciona con x linealmente en los 
parametros. Es cierto que no se esperarfa que la prediction de la respuesta fuera 
buena si hubiera diversas variables independientes que no se consideraran en el 
modelo, que afectaran la respuesta y variaran en el sistema. Aclemas, la prediction 
seguramente serfa inadecuada si la estructura verdadera que relacionara gy\x con x 
fuera no lineal en extremo en el rango de las variables consideradas. 
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Es frecuente que el modelo de regresion lineal simple se utilice aun cuando se 
sepa que el modelo es algo distinto del lineal, o que se desconozca la estructura ver- 
dadera. Este enfoque con frecuencia es muy bueno, en particular cuando el rango de 
las x es estrecho. Entonces, el modelo que se utiliza se vuelve una funcion aproxima- 
dora, de la cual se espera sea una representation adecuada del panorama verdadero 
en la region de interes. Sin embargo, debe notarse el efecto que tendrfa un modelo 
inadecuado sobre los resultados presentados hasta este momento. Por ejemplo, si el 
modelo verdadero, desconocido para el experimentador, es lineal en mas de una x, 
digamos, 


Vy\x u xi = a + 0\X\ + P 2 X 2 , 

entonces, el estimador b = S xy /S xx , de los mmimos cuadrados ordinarios calculado 
considerando tan solo x\ en el experimento es, en circunstancias generales, un esti- 
mado sesgado del coeficiente 0i (vease el ejercicio 11.37 en la pagina 423). Asimismo, 
el estimador s 2 para a 2 esta sesgado debido a la variable adicional. 


11.8 El enfoque del analisis de varianza 

Con frecuencia, el problema de analizar la calidad de la recta de regresion estimada 
se maneja mediante el enfoque del analisis de varianza (anova): procedimiento 
en el que la variation total de la variable dependiente se subdivide en componentes 
significativos, que luego se observan y se tratan en forma sistematica. El analisis de 
varianza, que se estudia en el capftulo 13, es un recurso poderoso que se emplea en 
muchas aplicaciones. 

Suponga el lector que se tiene n puntos de datos experimentales en la forma 
usual (xi, yi), y que se obtiene la recta de regresion. En la section 11.4 para la esti- 
mation de a 1 se establecio la identidad 

Syy = bS X y SSE. 

Una formulation alternativa y quiza mas informativa es la siguiente: 

n n n 

~ y ) 2 = ~ y ) 2 + ~ y ^ 2 - 

i= 1 i—1 i—1 

De modo que se hizo una particion de la suma cuadratica corregida total de y 
en dos componentes que deberfan rcflejar un significado particular para el experi- 
mentador. Esta particion se deberia indicar en forma simbolica como 

SST = SSR + SSE. 

El primer componente de la derecha, SSR, se denomina suma cuadratica de la 
regresion, y rcflcja la cantidad de variation de los valores y que se explica con el 
modelo, que en este caso es la linea recta postulada. El segundo componente es la 
familiar suma de errores al cuadrado, que refleja la variation alrededor de la recta 
de regresion. 

Suponga el lector que hay interes en las hipotesis 


H 0 : 0 = 0, 

Hr. 0^0. 
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donde la hipotesis nula en esencia dice que el modelo es gy\x = a. Es clecir, la varia- 
tion en los resultados Y debido a las fluctuaciones de probabilidad o aleatorias que 
son independientes de los valores de x. Esta condition se rcflcja en la figura 11.10&). 
En las condiciones de esta hipotesis nula se puede clemostrar que SSr/o 2 , y SSe/c t 2 
son valores de variables chi-cuadradas independientes con 1 y n — 2 grados de liber- 
tad, respectivamente, por lo que segun el teorema 7.12 se sigue que ssr/cr 2 tambien 
es un valor de una variable chi-cuadrada con n — 1 grados de libertad. Para probar 
la hipotesis anterior, calculamos 

ssr/1 ssr 

sse/(ii — 2) s 2 

y se rechaza Ho al nivel de significancia a cuando / > f a ( 1, n — 2). 

Por lo general, los calculos se resumen mediante una tabla de analisis de va- 
rianza, como se indica en la tabla 11.2. Es costumbre referirse a las distintas sumas 
de los cuadrados divididos entre sus grados respectivos de libertad como medias 
cuadraticas. 


Tabla 11.2: Analisis de varianza para la prueba de 0 = 0 


Fuente de 
variacion 

Suma de 
cuadrados 

Grados de Media 

libertad cuadratica 

/ 

calculada 

Regresion 

SSR 

1 SSR 

SSR 

s 2 

Error 

SSE 

n-2 S 2 = ?V I 


Total 

SST 

n — 1 



Cuando se rechaza la hipotesis nula, es decir, cuando el estadistico F calculado 
excede el valor critico f a ( 1, n — 2), concluimos que hay una cantidad signi- 
flcativa de variacion en la respuesta que da el modelo postulado, el cual 
es la funcion de una linea recta. Si el estadistico F esta en la region de rechazo, se 
concluye que los datos no reflejan evidencia suficiente para apoyar el modelo que 
se postula. 

En la section 11.5 se da un procedimiento donde se usa el estadistico 

T B-Pq 

s/vs. - 

para probar la hipotesis 

H 0 : (3 = 0o, 

Hy. 0 0o, 

donde T sigue la distribution t con n — 2 grados de libertad. La hipotesis se rechaza 
si \t\ > t a / 2 , para un nivel de significancia de a. Es interesante observar que en el 
caso especial en que se prueba 

H 0 : 0=0 , 

Hr. 0 ^ 0 , 

el valor del estadistico T se convierte en 

b 
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y la hipotesis en consideration es identica a la que se prueba en la tabla 11.2. Sobre 
todo, la hipotesis nula establece que la variacion en la respuesta se debe tan solo a la 
aleatoriedad. El analisis de varianza utiliza la distribution F en vez de la t. Para 
la alternativa bilateral, ambos enfoques son identicos. Esto se observa si se escribe 


t 2 = 


b 2 S r 


bS . 


xy 


SSR 


que es identico al valor / utilizado en el analisis de varianza. La relation funda- 
mental entre la distribucion t con v grados de libertad y la distribucion F con 1 y v 
grados de libertad es 


t 2 = /(M)- 

Desde luego, la prueba t permite probar contra la alternativa unilateral, en tanto 
que la prueba F esta restringida a probar contra una alternativa bilateral. 


Salida por computadora comentada para la regresion lineal simple 

Considere el lector otra vez los datos de la tabla 11.1, sobre la demanda de oxigeno 
quhnico. En las figuras 11.14 y 11.15 se presentan salidas por computadora mas 
completas. De nuevo se ilustran con el software minitab para PC. La columna de 
la razon t indica pruebas para la hipotesis nula de valores de cero en el parametro. 
El termino “Fit” denota los valores de y , que con frecuencia se denominan valores 
ajustados. El termino “se Fit” se emplea para calcular los intervalos de confianza 
sobre la respuesta media. El valor de R 2 se calcula como ( SSr/sst ) x 100, y significa 
la proportion de variacion de las y explicada por la regresion de la li'nea recta. Asi- 
mismo, muestra los intervalos de confianza sobre la respuesta media y los intervalos 
de prediction sobre una observation nueva. 


11.9 Prueba para la linealidad de la regresion: Datos 
con observaciones repetidas 

En ciertas clases de situaciones experimentales, el investigador tiene la capacidad de 
efectuar observaciones repetidas de la respuesta para cada valor de x. Aunque no 
es necesario tener dichas repeticiones para estimar ay ft las repeticiones permiten 
al experiment ador obtener information cuantitativa acerca de lo apropiado que 
resulta el modelo. En realidad, si se generan observaciones repetidas, el investiga- 
dor puede efectuar una prueba de significancia para determinar si el modelo es ade- 
cuado o no. 

Seleccionemos una muestra aleatoria de n observaciones con k valores distintos de 
x, por ejemplo, x\, X 2 , ■ ■ ■ , x n , de manera que la muestra contenga n\ valores obser- 
vados de la variable aleatoria Y\ correspondientes a los valores xi, que tambien con- 
tenga ri 2 valores observados de correspondientes a X 2 , ■ ■ ■ , n k valores observados 

k 

de Yk correspondientes a Xk . Necesariamente, n = ^2 rii. 

i=i 
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The regression equation is COD = 3.83 + 0.904 Per_Red 
Predictor Coef SE Coef T P 

Constant 3.830 1.768 2.17 0.038 

Per_Red 0.90364 0.05012 18.03 0.000 

S = 3.22954 R-Sq = 91. 3% R-Sq(adj) = 91.0% 

Analysis of Variance 

Source DF SS MS F P 

Regression 1 3390.6 3390.6 325.08 0.000 

Residual Error 31 323.3 10.4 

Total 32 3713.9 


Obs 

Per_Red 


COD 


Fit 

SE 

Fit 

Residual 

St Res 

sid 

1 

3 

.0 

5 

.000 

6 

.541 

1 

.627 

-1 

.541 

-0. 

55 

2 

36 

.0 

34 

.000 

36 

.361 

0 

.576 

-2 

.361 

-0. 

74 

3 

7 

.0 

11 

.000 

10 

. 155 

1 

.440 

0 

.845 

0. 

29 

4 

37 

.0 

36 

.000 

37 

.264 

0 

.590 

-1 

.264 

-0. 

40 

5 

11 

.0 

21 

.000 

13 

.770 

1 

.258 

7 

.230 

2. 

43 

6 

38 

.0 

38 

.000 

38 

.168 

0 

.607 

-0 

.168 

-0. 

05 

7 

15 

.0 

16 

.000 

17 

.384 

1 

.082 

-1 

.384 

-0. 

45 

8 

39 

.0 

37 

.000 

39 

.072 

0 

.627 

-2 

.072 

-0. 

65 

9 

18 

.0 

16 

.000 

20 

.095 

0 

.957 

-4 

.095 

-1. 

33 

10 

39 

.0 

36 

.000 

39 

.072 

0 

.627 

-3 

.072 

-0. 

97 

11 

27 

.0 

28 

.000 

28 

.228 

0 

.649 

-0 

.228 

-0. 

07 

12 

39 

.0 

45 

.000 

39 

.072 

0 

.627 

5 

.928 

1 . 

87 

13 

29 

.0 

27 

.000 

30 

.035 

0 

.605 

-3 

.035 

-0. 

96 

14 

40 

.0 

39 

.000 

39 

.975 

0 

.651 

-0 

.975 

-0. 

31 

15 

30 

.0 

25 

.000 

30 

.939 

0 

.588 

-5 

.939 

-1. 

87 

16 

41 

.0 

41 

.000 

40 

.879 

0 

.678 

0 

. 121 

0 . 

04 

17 

30 

.0 

35 

.000 

30 

.939 

0 

.588 

4 

.061 

1. 

28 

18 

42 

.0 

40 

.000 

41 

.783 

0 

.707 

-1 

.783 

-0. 

57 

19 

31 

.0 

30 

.000 

31 

.843 

0 

.575 

-1 

.843 

- 0 . 

58 

20 

42 

.0 

44 

.000 

41 

.783 

0 

.707 

2 

.217 

0 . 

70 

21 

31 

.0 

40 

.000 

31 

.843 

0 

.575 

8 

.157 

2. 

57 

22 

43 

.0 

37 

.000 

42 

.686 

0 

.738 

-5 

.686 

- 1 . 

81 

23 

32 

.0 

32 

.000 

32 

.746 

0 

.567 

-0 

.746 

- 0 . 

23 

24 

44 

.0 

44 

.000 

43 

.590 

0 

.772 

0 

.410 

0 . 

13 

25 

33 

.0 

34 

.000 

33 

.650 

0 

.563 

0 

.350 

0 . 

11 

26 

45 

.0 

46 

.000 

44 

.494 

0 

.807 

1 

.506 

0 . 

48 

27 

33 

.0 

32 

.000 

33 

.650 

0 

.563 

-1 

.650 

-0. 

52 

28 

46 

.0 

46 

.000 

45 

.397 

0 

.843 

0 

.603 

0 . 

19 

29 

34 

.0 

34 

.000 

34 

.554 

0 

.563 

-0 

.554 

- 0 . 

17 

30 

47 

.0 

49 

.000 

46 

.301 

0 

.881 

2 

.699 

0 . 

87 

31 

36 

.0 

37 

.000 

36 

.361 

0 

.576 

0 

.639 

0 . 

20 

32 

50 

.0 

51 

.000 

49 

.012 

1 

.002 

1 

.988 

0 . 

65 

33 

36 

.0 

38 

.000 

36 

.361 

0 

.576 

1 

.639 

0 . 

52 


Figura 11.14: Salida de minitab de la regresion lineal simple para los datos de 
demanda de oxigeno qufmico; parte I. 


Dij = el j-esimo valor de la variable aletoria Y t , 

7li 

Vi. ^ ^ Uij •> 



Se define 
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Obs 

Fit 

SE Fit 

957, 

Cl 

957, 

PI 

1 

6.541 

1.627 

( 3.223, 

9.858) 

(-0.834, 

13.916) 

2 

36.361 

0.576 

(35.185, 

37.537) 

(29.670, 

43.052) 

3 

10.155 

1.440 

( 7.218, 

13.092) 

( 2.943, 

17.367) 

4 

37.264 

0.590 

(36.062, 

38.467) 

(30.569, 

43.960) 

5 

13.770 

1.258 

(11.204, 

16.335) 

( 6.701, 

20.838) 

6 

38.168 

0.607 

(36.931, 

39.405) 

(31.466, 

44.870) 

7 

17.384 

1.082 

(15.177, 

19.592) 

(10.438, 

24.331) 

8 

39.072 

0.627 

(37.793, 

40.351) 

(32.362, 

45.781) 

9 

20.095 

0.957 

(18.143, 

22.047) 

(13.225, 

26.965) 

10 

39.072 

0.627 

(37.793, 

40.351) 

(32.362, 

45.781) 

11 

28.228 

0.649 

(26.905, 

29.551) 

(21.510, 

34.946) 

12 

39.072 

0.627 

(37.793, 

40.351) 

(32.362, 

45.781) 

13 

30.035 

0.605 

(28.802, 

31.269) 

(23.334, 

36.737) 

14 

39.975 

0.651 

(38.648, 

41.303) 

(33.256, 

46.694) 

15 

30.939 

0.588 

(29.739, 

32.139) 

(24.244, 

37.634) 

16 

40.879 

0.678 

(39.497, 

42.261) 

(34.149, 

47.609) 

17 

30.939 

0.588 

(29.739, 

32.139) 

(24.244, 

37.634) 

18 

41.783 

0.707 

(40.341, 

43.224) 

(35.040, 

48.525) 

19 

31.843 

0.575 

(30.669, 

33.016) 

(25.152, 

38.533) 

20 

41.783 

0.707 

(40.341, 

43.224) 

(35.040, 

48.525) 

21 

31.843 

0.575 

(30.669, 

33.016) 

(25.152, 

38.533) 

22 

42.686 

0.738 

(41.181, 

44.192) 

(35.930, 

49.443) 

23 

32.746 

0.567 

(31.590, 

33.902) 

(26.059, 

39.434) 

24 

43.590 

0.772 

(42.016, 

45.164) 

(36.818, 

50.362) 

25 

33.650 

0.563 

(32.502, 

34.797) 

(26.964, 

40.336) 

26 

44.494 

0.807 

(42.848, 

46.139) 

(37.704, 

51.283) 

27 

33.650 

0.563 

(32.502, 

34.797) 

(26.964, 

40.336) 

28 

45.397 

0.843 

(43.677, 

47.117) 

(38.590, 

52.205) 

29 

34.554 

0.563 

(33.406, 

35.701) 

(27.868, 

41.239) 

30 

46.301 

0.881 

(44.503, 

48.099) 

(39.473, 

53.128) 

31 

36.361 

0.576 

(35.185, 

37.537) 

(29.670, 

43.052) 

32 

49.012 

1.002 

(46.969, 

51.055) 

(42.115, 

55.908) 

33 

36.361 

0.576 

(35.185, 

37.537) 

(29.670, 

43.052) 


Figura 11.15: Salida de minitab de la regresion lineal simple para los datos de 
demanda de oxigeno quimico; parte II. 


Entonces, si m — 3, las mediciones de Y se efectuan correspondiendo a x = £4, y 
se indicarfan estas observaciones como t/41, ym y 2/43. Por lo tanto, 

Ti = 2/41 + 2/42 + 2 / 43 - 


E1 concept o de la fait a de ajuste 

La suma de errores cuadraticos consiste en dos partes: la cantidad debida a la va- 
riation entre los valores de Y dentro de valores dados de x, y un componente que 
normalmente se denomina contribution a la falta de ajuste. El primer componente 
rcfleja tan solo la variation aleatoria, o error experimental puro; mientras que 
el segundo es una medida de la variation sistematica introducida por los terminos 
de orden superior. En nuestro caso, estos son terminos de x distintos de la contribu- 
cion lineal o de primer orden. Observe que al elegir un modelo lineal en esencia se su- 
pone que este segundo componente no existe y, por lo tanto, la suma cuadratica 
de errores se debe por completo a errores aleatorios. Si este fuera el caso, entonces 
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S 2 = SSe/ (n — 2) es un estimador insesgado de a 2 . Sin embargo, si el modelo no se 
ajusta a los datos en forma apropiada, entonces la suma cuadratica de errores estara 
inflada y producira un estimador sesgado de a 2 . Sea que el modelo se ajuste o no a 
los datos, siempre que se tienen observaciones repetidas es posible obtener un esti- 
mador insesgado de a 2 calculando 

rii 

YliVij ~ Vi) 2 
*■ = ,=1 - 1 ; 

para cada uno de los k valores distintos de x y, despues, al agrupar estas varianzas, 
tenemos 

k k rii 

EK-1 )s 2 E Eiva-Vi.) 2 

g 2 _ i = 1 _ »=1 j= l 

n — k n — k 

El numerador de s 2 es una medida del error experimental puro. A continuation 
se presenta un procedimiento computacional para separar la suma cuadratica de 
errores en los dos componentes que representan el error puro y la falta de ajuste: 

Calculo de la suma 
de cuadrados 
debida a la falta 
de ajuste 

Esta suma de cuadrados tiene n — k grados de libertad asociados con ella, y la 
media cuadratica resultante es el estimador insesgado s 2 de a 2 . 

2. Reste la suma de cuadrados del error puro de la suma de cuadrados del error, 
SSE, con lo que se obtiene la suma de cuadrados debida a la falta de ajuste. Los 
grados de libertad de la falta de ajuste tambien se obtienen con la sola resta de 
(n — 2) — (n — k) = k — 2. 

En la tabla 11.3 se resumen los calculos que se requieren para la prueba de hipo- 
tesis en un problema de regresion con mediciones repetidas de la respuesta. 


Tabla 11.3: 

Analisis de varianza 

para la prueba de la linealidad de la regresion 

Fuente de 

Suma de 

Grados de 

Media 

f 

variacion 

cuadrados 

libertad 

cuadratica 

calculada 

Regresion 

SSR 

1 

SSR 

SSR 

s 2 

Error 

SSE 

n — 2 



Falta de ajuste 

j sse - sse (puro) 

jk - 2 

SSE - SSE (puro) 
k — 2 

SSE - SSE (puro) 

s 2 (k—2) 

Error puro 

I^sse (puro) 

1 n — k 

„2 SSE (puro) 

* — n-k 


Total 

SST 

n — 1 




Las figuras 11.16 y 11.17 ilustran los puntos muestrales para las situaciones del 
“modelo correcto” y del “modelo incorrecto”. En la figura 11.16, clonde py\x cae 


1 . Calcule la suma de los cuadrados del error puro 

i = l 7 = 1 
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sobre una li'nea recta, no hay falta de ajuste cuando se acepta un modelo lineal, por 
lo que la variation muestral alrededor de la recta de regresion es un error puro, re- 
sultante de la variation que ocurre entre observaciones repetidas. En la figura 11.17, 
donde claramente py\x no cae sobre una lmea recta, la falta de ajuste por seleccio- 
nar en forma erronea un modelo lineal es responsable de la mayoria de la variation 
alrededor de la recta de regresion, ademas del error puro. 


y 



Figura 11.16: Modelo lineal correcto sin componente de falta de ajuste. 


y 



Figura 11.17: Modelo lineal incorrecto con componente de falta de ajuste. 


^Cual es la importancia de detectar la falta de ajuste? 

El concepto de falta de ajuste es importante en extremo en las aplicaciones del anali- 
sis de regresion. En realidad, la necesidad de construir o disehar un experimento que 
tome en cuenta la falta de ajuste se vuelve mas cri'tico que el problema mismo; en 
tanto que el mecanismo subyacente implicado se vuelve mas complicado. Es seguro 
que no siempre se puede tener la certeza de que la estructura que se postula, en este 
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caso el modelo de regresion lineal, sea una representation correcta o incluso adecua- 
da. El ejemplo siguiente muestra la manera en que se parte la suma de cuadrados 
del error en las dos componentes que representan el error puro y la falta de ajuste. 
Lo adecuado del modelo se prueba al nivel de significancia a, comparando la media 
cuadratica de la falta de ajuste dividida entre s 2 con f a (k — 2, n — k). 


Ejemplo 11.8:1 En la tabla 11.4 se presenta el registro de las observaciones del producto de una 
reaction quimica, tomada a distintas temperaturas. 


Tabla 11.4: Datos para el Ejemplo 11.8 


y(%) 

X (°C) 

y(%) 

*(°c) 

77.4 

150 

88.9 

250 

76.7 

150 

89.2 

250 

78.2 

150 

89.7 

250 

84.1 

200 

94.8 

300 

84.5 

200 

94.7 

300 

83.7 

200 

95.9 

300 


Obtenga el modelo lineal py\x = a + /3x y pruebe la falta de ajuste. 
Solucion: En la tabla 11.5 se presentan los resultados de los calculos. 


Tabla 11.5: Analisis de varianza de los datos de producto-temperatura 


Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Media 

cuadratica 

f 

calculada 

Valor es P 

Regresion 

509.2507 

1 

509.2507 

1531.2507 

< 0.0001 

Error 

3.8660 

10 




Falta de ajuste 

f 1.2060 

I 2 

0.6030 

1.81 

0.2241 

Error puro 

1 2.6600 

u 

0.3325 



Total 

513.1167 

Total 





Conclusion: La partition de la variation total revela de esta manera una varia- 
tion significativa en el modelo lineal, y una cantidad insignificante de variation de- 
bida a la falta de ajuste. De manera que los datos experimentales no parecen sugerir 
la necesidad de considerar en el modelo terminos distintos de los de primer orden, y 
no se rechaza la hipotesis nula. 


Salida de computadora comentada para probar la falta de ajuste 

En la figura 11.18 se presenta una salida comentada de computadora para el analisis 
de los datos del ejemplo 11.8. El resultado es una salida sas. Observe la “lof” con 
2 grados de libertad, que representa las contribuciones cuadratica y cubica al modelo, 
y el valor Pde 0.22, que sugiere que el modelo lineal (primer orden) es adecuado. 
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Dependent Variable: yield 

Source 

Model 

Error 

Corrected Total 

R-Square 

0.994816 


Sum of 

DF Squares 

3 510.4566667 

8 2.6600000 

11 513.1166667 


Mean Square F Value 
170.1522222 511.74 

0.3325000 

yield Mean 
86.48333 


Coeff Var Root MSE 

0.666751 0.576628 


Source 

temperature 

L0F 


DF Type I SS Mean Square F Value 

1 509.2506667 509.2506667 1531.58 

2 1.2060000 0.6030000 1.81 


Pr > F 
<.0001 


Pr > F 
<.0001 
0.2241 


Figura 11.18: Salida SdS que muestra el analisis de los datos del ejemplo 11.8. 


Ej ercicios 

11.35 a) Encuentre la estimation por mi'nimos cua- 
drados para el parametro (3, en la ecuacion lineal 
II Y x = (3x. 

b) Estime la recta de regresion que pasa por el origen 
para los datos siguientes: 


X 

0.5 

1.5 

3.2 

4.2 

5.1 

6.5 

y 

1.3 

3.4 

6.7 

8.0 

10.0 

13.2 


11.36 Suponga que en el ejercicio 11.35 no se sabe 
si la regresion real debe pasar por el origen. Estime el 
modelo lineal hy\x = a + (3x y pruebe la hipotesis de 
que a = 0 con el nivel de significancia de 0.10, contra 
la alternativa de que a 0. 

11.37 Suponga que un experimentador propone un 
modelo del tipo 

Yi = a + (3xu + ti , i=l,2, ...,n, 

cuando en realidad una variable adicional, X2, tambien 
contribuye linealmente a la respuesta. Entonces, el mo- 
delo verdadero esta dado por 

Yi = a + f3xu + 7 * 2 i + ei, i = 1 , 2 , . . . , n. 
Calcule el valor esperado del estimador 

E - Xl)Y, 


EOd * - *i) 2 

i=i 

11.38 En el ejercicio 11.3 de la pagina 398, utilice el 
enfoque del analisis de varianza para probar la hipote- 
sis de que (3 = 0, contra la hipotesis alternativa de que 
(3 =£0, con un nivel de significancia de 0.05. 


11.39 En los pesticidas se utilizan compuestos de or- 
ganofosfatos (of). Sin embargo, es importante estu- 
diar el efecto que tienen sobre las especies expuestos 
a ellos. Como parte del estudio de laboratorio Some 
Effects of Organophosphate Pesticides on Wildlife Spe- 
cies, elaborado por el Departamento de Pesca y Vida 
Silvestre del Instituto Politecnico y Universidad Es- 
tatal de Virginia, se realizo un experimento en el cual 
se suministraron distintas dosis de un pesticida OF en 
particular a 5 grupos de 5 ratones ( peromysius leu- 
copus). Los 25 ratones eran hembras de edad y con- 
diciones similares. Un grupo no recibio el producto. 
La respuesta basica y consistio en medir la actividad 
cerebral. Se postulo que dicha actividad disminuirfa 
con el incremento en la dosis de of. A continuation se 
presentan los datos: 


Dosis, x (mg/kg Actividad, y 

Animal de peso corporal) (moles/litro/min) 


1 

0.0 

10.9 

2 

0.0 

10.6 

3 

0.0 

10.8 

4 

0.0 

9.8 

5 

0.0 

9.0 

6 

2.3 

11.0 

7 

2.3 

11.3 

8 

2.3 

9.9 

9 

2.3 

9.2 

10 

2.3 

10.1 

11 

4.6 

10.6 

12 

4.6 

10.4 

13 

4.6 

8.8 

14 

4.6 

11.1 

15 

4.6 

8.4 

16 

9.2 

9.7 

17 

9.2 

7.8 

18 

9.2 

9.0 

19 

9.2 

8.2 

20 

9.2 

2.3 

21 

18.4 

2.9 

22 

18.4 

2.2 

23 

18.4 

3.4 

24 

18.4 

5.4 

25 

18.4 

8.2 
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a) Con el modelo 

Yi = a + f3xi + ei, i = 1, 2, , 25, 

encuentre los estimadores de mfnimos cuadrados de 

ay (3. 

b) Construya una tabla de analisis de varianza en la 
cual aparezcan por separado los errores por falta de 
ajuste y puro. Determine si la falta de ajuste es sig- 
nificativa al nivel de 0.05. Interprete los resultados. 

11.40 En el ejercicio 11.5 de la pagina 398, pruebe la 
linealidad de la regresion. Use un nivel de significancia 
de 0.05. Haga comentarios al respecto. 

11.41 Para el ejercicio 11.6 de la pagina 398, pruebe 
la linealidad de la regresion. Comente sus resultados. 

11.42 La ganancia de un transistor en un dispositivo 
de circuito integrado, entre el emisor y el colector (hFE), 
se relaciona con dos variables [Myers y Montgomery 
(2002)] que se controlan en el proceso de deposition, 
controlado por el emisor en el tiempo (aq, en minutos) y 
la dosis del emisor ( aq , en iones x 10 14 ). Se observaron 
14 muestras despues de la deposition, y los datos resul- 
tantes se presentan en la tabla siguiente. Consideraremos 
modelos de regresion lineal usando la ganancia como res- 
puesta, y el control del emisor en el tiempo o la dosis del 
emisor, como las variables regresoras. 

xi, (tiempo de X 2 , (dosis, y, (ganancia 
Obs. control, min) iones x 10 14 ) o hFE) 


1 

195 

4.00 

1004 

2 

255 

4.00 

1636 

3 

195 

4.60 

852 

4 

255 

4.60 

1506 

5 

255 

4.20 

1272 

6 

255 

4.10 

1270 

7 

255 

4.60 

1269 

8 

195 

4.30 

903 

9 

255 

4.30 

1555 

10 

255 

4.00 

1260 

11 

255 

4.70 

1146 

12 

255 

4.30 

1276 

13 

255 

4.72 

1225 

14 

340 

4.30 

1321 


a) Determine si el tiempo de control del emisor influ- 
ye en la ganancia en una relation lineal. Es decir, 
pruebe Hq: /3\ = 0, donde f3i es la pendiente de la 
variable regresora. 

b) Efectue una prueba de falta de ajuste para deter- 
minar si es adecuada la relation lineal. Saque sus 
conclusiones. 

c) Determine si la dosis del emisor influye en la ganan- 
cia en una relation lineal. /.Cual variable regresora 
es el mejor predictor de la ganancia? 

11.43 Los siguientes datos son el resultado de una 
investigation sobre el efecto de la temperatura de reac- 
tion, x, sobre la conversion porcentual de un proceso 
qui'mico, y. [ Vease Myers y Montgomery (2002).] Haga 
un ajuste por regresion lineal simple y utilice pruebas 
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de falta de ajuste para determinar si el modelo es ade- 
cuado. Analice los resultados. 

Temperatura Conversion 
Observation (°C), x %, y 


1 

200 

43 

2 

250 

78 

3 

200 

69 

4 

250 

73 

5 

189.65 

48 

6 

260.35 

78 

7 

225 

65 

8 

225 

74 

9 

225 

76 

10 

225 

79 

11 

225 

83 

12 

225 

81 


11.44 Es frecuente que se utilice el tratamiento con 
calor para carburar partes metalicas como los engra- 
nes. El espesor de la capa carburada se considera una 
caracteristica importante del engrane, y contribuye a la 
confiabilidad conjunta de la parte. Debido a la natura- 
leza critica de esta caracteristica, se realiza una prueba 
de laboratorio para cada lote del horno. La prueba es 
destructiva, y consiste en que la parte real se corta en 
forma transversal y se sumerge en un producto qui'mico 
durante cierto tiempo. Esta prueba requiere efectuar 
un analisis del carbono sobre la superficie tanto de la 
parte superior del engrane (arriba de los dientes) como 
de su rafz (entre los dientes). Los datos siguientes son 
los resultados de la prueba de analisis de carbono en 
las 19 partes. 

Tiempo de Tiempo de 

immersion Grado immersion Grado 


0.58 

0.013 

1.17 

0.021 

0.66 

0.016 

1.17 

0.019 

0.66 

0.015 

1.17 

0.021 

0.66 

0.016 

1.20 

0.025 

0.66 

0.015 

2.00 

0.025 

0.66 

0.016 

2.00 

0.026 

1.00 

0.014 

2.20 

0.024 

1.17 

0.021 

2.20 

0.025 

1.17 

0.018 

2.20 

0.024 

1.17 

0.019 




a) Haga un ajuste de regresion lineal simple que rela- 
tione el grado del analisis de carbono, y , contra el 
tiempo de immersion. Pruebe Hq\ f3\ = 0. 

b) Si se rechaza la hipotesis del inciso a), determine si 
el modelo lineal es adecuado. 

11.45 Se desea obtener un modelo de regresion que 
relacione la temperatura con la proportion de impure- 
zas de una sustancia solida que pasa a traves de lielio 
solido. Se lista la temperatura en grados centfgrados. 
A continuation se presentan los datos. 

a) Ajuste un modelo de regresion lineal. 

b) /.Parece que la proportion de impurezas que pasan a 
traves del helio incrementa la temperatura conforme 
esta se acerca a —273 grados centfgrados? 

c) Encuentre R 2 . 
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d) Con base en la information anterior, ^parece ade- 
cuado el rnodelo lineal? ^Que information adicional 
necesitan'a el lector para responder mejor a la pre- 
gunta? 

Temperatura Proportion 

(C) de impurezas 


-260.5 

.425 

-255.7 

.224 

-264.6 

.453 

-265.0 

.475 

-270.0 

.705 

-272.0 

.860 

-272.5 

.935 

-272.6 

.961 

-272.8 

.979 

-272.9 

.990 


11.46 Es de interes estudiar el efecto que tiene el ta- 
mafio de la poblacion de varias ciudades de Estados 
Unidos sobre las concentraciones de ozono. Los datos 
consisten en la poblacion de 1999, en millones de ha- 
bitantes y en la cantidad de ozono presente por hora 
en ppmm (partes por mil millones). Los datos son los 
siguientes: 

Ozono (ppmm/hora), y Poblacion, x 

126 

0.6 

135 

4.9 

124 

0.2 

128 

0.5 

130 

1.1 

128 

0.1 

126 

1.1 

128 

2.3 

128 

0.6 

129 

2.3 


a) Ajuste un rnodelo de regresion lineal que relatione 
la concentration del ozono con la poblacion. Pruebe 
Hq: (3 = 0 usando el enfoque del anova. 

b) Realice una prueba de la falta de ajuste. Con base 
en los resultados de la prueba, i es apropiado el mo- 
delo lineal? 

c) Pruebe la hipotesis del inciso a) utilizando la media 
cuadratica del error puro en la prueba F. ^Cambian 
los resultados? Comente las ventajas de cada prueba. 

11.47 Evaluar la deposition del nitrogeno de la atmosfe- 
ra es una tarea importante de The National Atmospheric 
Deposition Program (nadp, asociacion de muchas institu- 
ciones). La napd esta estudiando la deposicion atmosfe- 


rica y su efecto sobre los cultivos agricolas, las aguas su- 
perficiales de los bosques, y otros recursos. Los oxidos del 
nitrogeno pueden tener efectos sobre el ozono atmosferi- 
co y la cantidad de nitrogeno puro que se encuentra en 
el aire que respiramos. A continuation se presentan los 
datos: 

Ario Oxido de nitrogeno 


1978 

0.73 

1979 

2.55 

1980 

2.90 

1981 

3.83 

1982 

2.53 

1983 

2.77 

1984 

3.93 

1985 

2.03 

1986 

4.39 

1987 

3.04 

1988 

3.41 

1989 

5.07 

1990 

3.95 

1991 

3.14 

1992 

3.44 

1993 

3.63 

1994 

4.50 

1995 

3.95 

1996 

5.24 

1997 

3.30 

1998 

4.36 

1999 

3.33 


a) Grafique los datos. 

b) Ajuste un rnodelo de regresion lineal y obtenga R 2 . 

c) iQue puede decirse acerca de la tendencia de los 
oxidos con el paso del tiempo? 

11.48 Para una variedad particular de planta, los in- 
vestigadores desean desarrollar una formula para pre- 
decir la cantidad de semillas (gramos) como funcion de 
la densidad de las plantas. Efectuaron un estudio con 
cuatro niveles del factor X, el niimero de plantas por 
parcela. Se utilizaron cuatro replicas para cada nivel de X. 
A continuation se muestran los datos: 

Plantas por parcela Cantidad de semillas, y 
x (gramos) 


10 

12.6 

11.0 

12.1 

10.9 

20 

15.3 

16.1 

14.9 

15.6 

30 

17.9 

18.3 

18.6 

17.8 

40 

19.2 

19.6 

18.9 

20.0 


^Es adecuado un rnodelo de regresion lineal para anali- 
zar este conjunto de datos? 


11.10 Graficas de datos y transformaciones 

En este capftulo se estudia la construccion de modelos de regresion en los que hay 
una variable independiente o regresora. Ademas, durante la construccion del rnodelo 
se supone que tanto x como y entran en el rnodelo en forma lineal. Con frecuencia, 



426 


Capitulo 1 1 Regresion lineal simple y correlacion 


es aconsejable trabajar con un modelo alternative en el que x o y (o ambas) inter- 
vengan en una forma no lineal. Es posible que se prescriba una transformacion 
de los datos debido a consideraciones teoricas inherentes al estudio cientifico, o a 
que una simple grafica de los datos sugiera la necesidad de reexpresar las variables 
del modelo. La necesidad de llevar a cabo una transformacion es muy facil de diag- 
nosticar en el caso de la regresion lineal simple, debido a que las graficas en dos 
dimensiones brindan un panorama verdadero de la manera en que las variables se 
comportan en el modelo. 

Un modelo en el que se transformen x o y no deberia verse como un modelo de 
regresion no lineal. Por lo general, se denomina como lineal a un modelo de regre- 
sion cuando es lineal en los parametros. En otras palabras, suponga que lo com- 
plejo de los datos u otra information cientffica sugiera que debe hacerse la regresion 
de y* contra x *, donde cada una de ellas es una transformacion de las variables 
naturales x y y. Entonces, el modelo de la forma 

y* = a + 0x* + ei 

es lineal porque lo es en los parametros a y (3. El material que se estudio en las sec- 
ciones 11.2 a 11.9 permanece sin cambio, con y* y x* que reemplazan a y, y a Xi. Un 
ejemplo sencillo y util es el modelo log-log: 

log y t = a + fdlogXi + e;. 

Aunque este modelo es no lineal en x y y, si lo es en los parametros y por ello recibe 
el tratamiento de un modelo lineal. Por otro lado, un ejemplo de modelo verclade- 
ramente no lineal es: 


Vi = (do + (dix 132 + ei, 

donde debe estimarse el parametro (32 (asi como 0o y 0i). El modelo es no lineal 
en 02 - 

Las transformaciones susceptibles de mejorar el ajuste y la predictibilidad del 
modelo son muy numerosas. Para un analisis completo de las transformaciones, el 
lector puede consultar a Myers (1990, vease la bibliografia) . Aqui indicamos algunas 
de ellas y mostraremos la apariencia de las graficas que sirven como diagnostico. 
Considere la taba 11.6. Ahi se dan varias funciones que describen relaciones entre y 
y x que producen una regresion lineal con la transformacion indicada. Ademas, con 
la finalidad de dar todo completo, se presentan al lector las variables dependiente e 
independiente por utilizar en la regresion lineal simple resultante. La figura 11.19 
ilustra las funciones que se listan en la tabla 11.6. Estas sirven como guia para el 
analisis en la election de una transformacion a partir de la observation de la grafica 
de y contra x. 


Tabla 11.6: Algunas transformaciones utiles para linealizar 


Forma funcional 
que relaciona y con x 

Transformacion 

propia 

Forma de la regresion 
lineal simple 

Exponential: y = ae@ x 

II 

* 

Hacer la regresion de y* contra x 

Potencia: y = ax 13 

y* = log y; x* = \ogx 

Hacer la regresion de y* contra x* 

Reciproca: y = a + 0 

* l 

x = - 

X 

Hacer la regresion de y contra x0 

Funcion hiperbolica: y = a _U 

7 I* — I- r * — I 

Vy' x 

Hacer la regresion de y* contra x* 
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/?> 1 

a 




\ f3< 0 


p>0 


0 < (3< 1 

X 

X 

X 


(3< 0 


a) Funcion exponencial 


b) Funcion potencial 


y y 


a 

1/(3 


/j<0 

(3> 0 

X 

X 


c) Funcion recfproca 


d) Funcion hiperbolica 


Figura 11.19: Diagramas que ilustran las funciones enlistadas en la tabla 11.6. 


^Cuales son las implicaciones de un modelo transformado? 

Lo que sigue intenta ser una ayuda para el analista, cuando es evidente que una 
transformacion producira una mejorfa. Sin embargo, antes de dar un ejemplo, deben 
mencionarse dos puntos importantes. El primero tiene que ver con la escritura for- 
mal del modelo, una vez que se hayan transformado los datos. Con mucha frecuen- 
cia el analista no piensa en esto: tan solo lleva a cabo la transformacion sin ningun 
interes en la forma del modelo antes ni despues de la transformacion. El modelo 
exponencial sirve como una ilustracion buena de ello. El modelo en las variables na- 
turales (no transformadas) que produce un modelo de error aditivo en las variables 
transformadas esta dado por 

Vi = aeP x i • a, 

que es un modelo de error multiplicativo. A1 sacar logaritmos es claro que se obtiene 

In m = In a + (3xi + In e». 

Como resultado, las suposiciones basicas se efectuan sobre In e t . El proposito de esta 
presentation unicamente es recordar al lector que no debe verse una transformacion 
tan solo como una manipulation algebraica a la cual se suma un error. Con frecuen- 
cia, un modelo en las variables transformadas que tiene una adecuada estructura de 
error aditivo es resultado de un modelo en las variables naturales con una estructura 
de error diferente. 

El segundo punto importante es sobre la notion de las medidas de mejorfa. Las 
medidas evidentes para comparar son, por supuesto, el valor de R 2 y la media 
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cuadratica de los residuos, s 2 . (En el capitulo 12 se dan otras mediciones cle rendi- 
miento de las comparaciones entre modelos que compiten.) Ahora, si la respuesta y no 
se transforma, entonces es claro que s 2 y R 2 se pueden usar para medir la utilidad de 
la transformation. Los residuos estaran en las mismas unidades para los dos modelos: 
el transformado y el que no lo esta. Pero cuando y se transforma, los criterios de ren- 
dimiento para el modelo transformado deberian basarse en los valores de los residuos 
en las unidades de medida de la respuesta no transformada. De ese modo las com- 
paraciones son mas apropiadas. El siguiente ejemplo proporciona una ilustracion de 
lo anterior. 


Ejemplo 11.9:1 Se registra la presion P de un gas que corresponde a distintos volumenes V, y los 
datos se presentan en la tabla 11.7. 


Tabla 11.7: Datos para el ejemplo 11.9 


V(cm 3 ) 

50 

60 

70 

90 

100 

P (kg/cm 2 ) 

64.7 

51.3 

40.5 

25.9 

7.8 


La ley del gas ideal esta dada por la forma funcional PV 1 = C, donde 7 y C son 
constantes. Estime las constantes C y 7. 

Solucion: Se tomaran logaritmos naturales en ambos lados del modelo 

P,V 7 - C f ,, ,i = 1,2, 3,4,5. 

Como resultado, es posible escribir el modelo lineal 

In Pi = InC — 7 In Pi + e*, i= 1,2, 3, 4, 5, 

donde e* = In e^. Los siguientes son los resultados de la regresion lineal simple: 

Intersection: InC = 14.7589, C = 2,568,862.88, Pendiente: 7 = 2.65347221. 

La siguiente tabla representa information tomada del analisis de regresion. 


P, 

V, 

InP, 

In Vi 

In Pi 

Pi 

— Pi — Pi 

64.7 

50 

4.16976 

3.91202 

4.37853 

79.7 

-15.0 

51.3 

60 

3.93769 

4.09434 

3.89474 

49.1 

2.2 

40.5 

70 

3.70130 

4.24850 

3.48571 

32.6 

7.9 

25.9 

90 

3.25424 

4.49981 

2.81885 

16.8 

9.1 

7.8 

100 

2.05412 

4.60517 

2.53921 

12.7 

-4.9 


Es instructive graficar los datos y la ecuacion de regresion. La figura 11.20 mues- 
tra una grafica de los datos no transformados de presion y volumen; en tanto que la 
curva representa la ecuacion de regresion. 


Graficas de diagnostico de los residuos: Deteccion grafica 
de la trasgresion de las suposiciones 

Las graficas de los datos crudos son de mucha ayuda para determinar la naturaleza 
del modelo que debe ajustarseles cuando tan solo hay una variable independiente. 
En seguida se intenta ilustrar esto. Sin embargo, la deteccion de la forma del modelo 
adecuado no es el unico beneficio que se obtiene con la grafica de diagnostico. Como 
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l 1 1 1 1 1 

50 60 70 80 90 100 

Volumen 

Figura 11.20: Datos de presion y volumen y la regresion ajustada. 


en gran parte del material asociado con las pruebas de hipotesis que se trata en el 
capitulo 10, los metodos de graficacion ilustran y detectan la trasgresion de las supo- 
siciones. El lector clebena recordar que muchos de los conceptos que se ilustran en el 
capitulo requieren de suposiciones sobre los errores del modelo, las ei. En los hechos, 
se supone que las e* son variables aleatorias independientes N(0,cr). Por supuesto, las 
e, no son observadas al principio. Sin embargo, los ei = yt — yi, los residuos, son 
los errores en el ajuste de la recta de regresion, por lo que sirven para reproducir los 
ei. Asi, la complejidad de estos residuos con frecuencia resalta las dificultades. La 
grafica de los residuos, idealizada por supuesto, es como la que se aprecia en la figura 
11.21. Es decir, deberian demostrar en verdad fluctuaciones aleatorias alrededor del 
valor de cero. 
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Figura 11.21: Grafica ideal de los residuos. 


Figura 11.22: Grafica de los residuos que ilustra 
una varianza heterogenea de los errores. 
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Varianza no homogenea 

Una suposicion importante que se hace en el analisis de regresion es la varianza ho- 
mogenea. Con frecuencia, las trasgresiones se detectan con la apariencia de la grafica 
de residuos. En los clatos cientfficos, una condition comun es que se incremente la 
varianza del error con el aumento de la variable regresora. Una varianza grande del 
error produce residuos grandes y, por ende, una grafica de ellos como la que se pre- 
senta en la figura 11.22 es senal de varianza no homogenea. En el capitulo 12 se presen- 
ta un analisis mas amplio acerca de las graficas de los residuos e information acerca 
de los diferentes tipos de estos. 

Grafica de la probabilidad normal 

La suposicion de que los errores del modelo son normales se hace cuando el analis- 
ta de los datos aborda ya sea las pruebas de hipotesis o la estimation de intervalos 
de confianza. De nuevo, la contraparte numerica de los e,;, los residuos, son sujetos de 
diagnosticarse mediante la graficacion para detectar cualesquiera trasgresiones extre- 
mas. En el capitulo 8 se presentaron las graficas normales cuantil-cuantil y se anali- 
zaron en forma breve las de probabilidad normal. En el estudio de caso que se clesa- 
rrolla en la siguiente seccion se ilustran las graficas de residuos. 


11.11 Caso de estudio de regresion lineal simple 

En la manufactura de productos comerciales de madera es importante estimar la 
relation que hay entre la clensidad de un producto de madera y su rigidez. Esta en 
consideration un tipo relativamente nuevo de aglomerado que puede hacerse con 
mucha mayor facilidad que el producto comercial ya aceptado. Es necesario saber 
cual es la densidad con que su rigidez es comparable con la del producto comercial 
bien conocido y documentado. El estudio lo realizo Terrance E. Conners, Investiga- 
tion of Certain Mechanical Properties of a Wood-Foam Composite (M.S. Thesis, 
Departamento de Bosques y Vida Silvestre, University of Massachusetts) . Se produ- 
jeron 30 tableros de aglomerado con densidades que variaban aproximadamente de 
8 a 26 libras por pie cubico, y se midio la rigidez en libras por pulgada cuadrada. En 
la tabla 11.8 se presentan los datos. 

Es necesario que el analista de datos se centre en un ajuste apropiado para los da- 
tos, y que utilice los metodos de inferencia que se estudian en este capitulo. Pueden 
ser apropiadas tanto la prueba de hipotesis sobre la pendiente de la regresion, como 
la estimation de los intervalos de confianza o prediction. Se comenzara presentando 
un simple diagrama de dispersion de los datos crudos con una regresion lineal simple 
sobrepuesta. En la figura 11.23 se observa dicha grafica. 

El ajuste de regresion lineal simple a los datos produce el modelo ajustado 

y = —25,433.739 + 3, 884.976a; ( R 2 = 0.7975), 
y ya es posible calcular los residuos. La figura 11.24 presenta los residuos graficados 
contra las mediciones de la densidad. Este dificilmente es un conjunto de residuos 
ideal o satisfactorio, pues no muestran una distribution al azar alrededor del valor 
de cero. En realidad, los agrupamientos de valores positivos y negativos sugeririan 
que debe investigarse una tendencia curvilinea en los datos. 

Para tener idea sobre la suposicion de la distribution normal de los errores, se 
genero una grafica de probabilidad normal de los residuos. Este es el tipo de grafica 
que se estudio en la seccion 8.3, donde el eje vertical representa la funcion de distri- 
bution empfrica en una escala que produce una lfnea recta cuando se grafica contra 
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Tabla 11.8: Densidad y rigidez de 30 tableros de aglomerado 


Densidad, x 

Rigidez, y 

Densidad, x 

Rigidez, y 

9.50 

14,814.00 

8.40 

17, 502.00 

9.80 

14,007.00 

11.00 

19,443.00 

8.30 

7, 573.00 

9.90 

14,191.00 

8.60 

9,714.00 

6.40 

8,076.00 

7.00 

5,304.00 

8.20 

10,728.00 

17.40 

43,243.00 

15.00 

25,319.00 

15.20 

28,028.00 

16.40 

41,792.00 

16.70 

49,499.00 

15.40 

25,312.00 

15.00 

26,222.00 

14.50 

22, 148.00 

14.80 

26,751.00 

13.60 

18,036.00 

25.60 

96,305.00 

23.40 

104, 170.00 

24.40 

72,594.00 

23.30 

49,512.00 

19.50 

32,207.00 

21.20 

48,218.00 

22.80 

70,453.00 

21.70 

47, 661.00 

19.80 

38,138.00 

21.30 

53,045.00 
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Figura 11.23: Diagrama de dispersion de los datos Figura 11.24: Grafica de los residuos para los 
de densidad de la madera. datos de densidad de la madera. 


los residuos mismos. En la figura 11.25 se muestra la grafica de probabilidad normal 
de los residuos. Esta grafica no rcflcja la apariencia de recta que a uno le gustarfa 
ver, lo cual es otro sfntoma de una selection erronea, quiza sobresimplificada, de un 
modelo de regresion. 

Ambos tipos de graficas de residuo y, tambien, el diagrama de dispersion su- 
gieren que serfa adecuado un modelo algo mas complicado. Una posibilidad es usar 
un modelo con transformation de logaritmos naturales. En otras palabras, hay que 
elegir hacer la regresion de In y contra x. Esto produce la regresion 


lny = 8.257 + 0.125a; {R 2 = 0.9016). 
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Figura 11.25: Grafica de probabilidad normal de los residuos para los datos 
de densidad de la madera. 


Para obtener alguna perspectiva de si el modelo transformado es mas apropiado, 
considere las figuras 11.26 y 11.27, que muestran graficas de los residuos de la rigidez 
[es decir, y,; -antilog (In y)\ contra la densidad. La figura 11.26 parece mas cercana a 
un patron aleatorio alrededor del cero, en tanto que la 11.27 con seguridad se acer- 
ca a una lrnea recta. Esto, ademas de un valor de R 2 mas elevado, sugerirfa que el 
modelo transformado es mas apropiado. 


11.12 Correlacion 

Hasta este momento se ha supuesto que la variable regresora independiente x es 
una variable cientffica o ffsica, pero no aleatoria. En la realidad de este contexto 
es frecuente que x se denomine variable matematica, la cual, en el proceso de 
muestreo, se mide con un error despreciable. En muchas aplicaciones de las tecnicas 
de regresion es mas realista suponer que tanto X como Y son variables aleatorias y 
que las mediciones {( Xi , y*); i = 1, 2, . . . , n} son observaciones de una poblacion que 
tiene la funcion densidad conjunta f(x, y). Se clebe tener en cuenta el problema de 
medir la relacion entre las dos variables X y Y. Por ejemplo, si X y Y representaran 
la longitud y la circunferencia de una clase particular de hueso en el cuerpo de un 
adulto, se debe realizar un estudio antropologico para determinar si los valores gran- 
des de X estan asociados con valores grandes de Y, y viceversa. 

Por otro lado, si X representa la edad de un automovil usado y Y representa su 
valor en libros al menudeo, se esperarfa que los valores grandes de X correspondie- 
ran a valores pequenos de Y, y los valores pequehos de X tuvieran correspondencia 
con los grandes de Y. El analisis de correlacion intenta medir la intensidad de 
tales relaciones entre dos variables por medio de un solo numero denominado coefi- 
ciente de correlacion. 
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Figura 11.26: Grafica de residuos donde se utiliza 
una transformacion logarftimica para los datos de 
densidad de la madera. 
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Figura 11.27: Grafica de probabilidad normal de 
residuos en la cual se utiliza una transformacion 
logarftmica para los datos de densidad de la 
madera. 


En teoria, con frecuencia se supone que la distribution conditional f(y \x) de Y, 
para valores fijos de X , es normal con media hy\x = ct + (3x y varianza o\- | x = <j 2 , 
y que de igual manera, X esta distribuida en forma normal con media /a y varianza 
<Tx . Entonces, la densidad conjunta de X y de Y es 


f(x,y) = n(y\x-,a + Px,a)n(x-,nx,vx) 

1 I 1 ( y — a — (3x 

= W 6XP "2 ; a 


para — oo < x < oo, y — oo < y < oo. 

Escribamos la variable aleatoria Y en la forma 



Y = a + f3X + e, 

donde ahora X es una variable aleatoria independiente del error aleatorio e. Como 
la media del error aleatorio es cero, se sigue que 

HY = a + Pnx y (Ty = a 2 + /3 2 a 2 x . 

A1 sustituir a y o 2 en la expresion anterior para f(x, y ), se obtiene la distribucion 
normal bivariada 
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Coeficiente de 
correlacion 


para — oo < x < oo y — oo < y < oo, donde 


3 2 °x 

j 2 ' 
J Y 


'Y 


Ot 


La constante p (ro) se denomina coeficiente de correlacion de la poblacion, y 
juega un papel importante en muchos problemas de analisis de datos bivariados. Es 
importante que el lector entienda la interpretacion fisica de este coeficiente de co- 
rrelacion y la diferencia entre correlacion y regresion. El termino regresion aun tiene 
algun significado aquf. De hecho, la lrnea recta dada por py\x = a + (3x aun se llama 
recta de regresion igual que antes, y los estimadores de a y (3 son identicos a los que 
se dieron en la seccion 11.3. El valor de p es 0 cuando (3 = 0, que resulta cuando 
en esencia no existe regresion lineal; es decir, la recta de regresion es horizontal y 
cualquier conocimiento de X es inutil para predecir Y. Como cry > cr 2 , se debe tener 
p 2 < 1 y, por ello, —1 < p < 1. Los valores de p = ±1 solo ocurren cuando cr 2 = 0, en 
cuyo caso se tiene una relacion lineal perfecta entre las dos variables. Asf, un valor 
de p igual a +1 implica una relacion lineal perfecta con pendiente positiva, en tanto 
que un valor de p igual a —1 resulta de una relacion lineal perfecta con pendiente ne- 
gativa. Entonces, podrfa decirse que los estimadores muestrales de p con magnitud 
cercana a la unidad implican una buena correlacion o asociacion lineal entre X y 
Y: mientras que valores cerca de cero indican poca o ninguna correlacion. 

Para obtener una estimation muestral de p, hay que recordar, de la seccion 11.4, 
que la suma cuadratica del error es 


SSE — Ryy bS xy . 


A1 dividir ambos lados de esta ecuacion entre S yy y reemplazar S xy con bS xx , se 
obtiene la relacion 


^2 ^ 
Sim 


SSE 


El valor de b 2 S xx /S yy es igual a cero cuando b = 0, lo que ocurrira cuando los puntos 
muestrales no tengan relacion lineal. Co mo S yv > SSE, se concluye que b 2 S xx /S xy 
debe estar entre 0 y 1. En consecuencia, b^S xx /S yy debe variar entre —1 y +1, y los 
valores negativos corresponden a rectas con pendientes positivas. Un valor de —1 o 
+1 sucedera cuando SSE = 0, pero este es el caso en el que todos los puntos muestra- 
les caen sobre una lrnea recta. Por lo tanto, una relacion lineal perfecta se da en los 
datos muestrales cuando b\J S xx / S yy = ±1. Es claro que la cantidad b\J S xx / S yy , 
que se designara de aquf en adelante como r, puede usarse como un estimador del 
coeficiente de correlacion p de la poblacion. Se acostumbra hacer referenda al esti- 
mador r como coeficiente de correlacion producto-momento de Pearson, o 
tan solo coeficiente de correlacion muestral. 


La medida p de la asociacion lineal entre dos variables X y Y se estima por medio 

del coeficiente de correlacion muestral r, donde 


r 



J xy 


yj RxxRyy 


Debe tenerse cuidado en la interpretacion de valores de r entre —1 y +1. Por 
ejemplo, valores de r iguales a 0.3 y 0.6 significan solo que se tiene dos correlaciones 



11.12 Correlation 


435 


positivas, una un poco mas fuerte que la otra. Sena un error concluir que r = 0.6 
indica una relation lineal dos veces mejor que la del valor r = 0.3. Por otro lado, si 
se escribe 


SSR 

e ’ 

°yy 

entonces, r 2 , que por lo general se denomina coeficiente muestral de determina- 
tion, representa la proporcion de la variation de S yy explicada por la regresion de 
Y sobre x, que es SSR. Es decir, r 2 expresa la proporcion de la variation total de los 
valores de la variable Y que son ocasionados o explicados por una relation lineal con 
los valores de la variable aleatoria X. Asi, una correlation de 0.6 significa que 0.36 
o 36% de la variation total de los valores de Y en la muestra se clebe a la relation 
lineal con los valores de X. 


02 

2 ^ xy 

r = 


$xx ^yy 


Ejemplo 11.10:1 Es importante que los investigadores cientificos del area de productos forestales sean 
capaces de estudiar la correlation entre la anatomia y las propiedades mecanicas de 
los arboles. De acuerdo con el estudio Quantitative Anatomical Characteristics of 
Plantation Grown Loblolly Pine (Pinus Taeda L.) and Cottonwood (Populus deltoi- 
des Bart. Ex Marsh.) and Their Relationships to Mechanical Properties conducido 
por el Departamento de Bosques y Productos Forestales del Instituto Politecnico y 
Universidad Estatal de Virginia, experimento en el cual se seleccionaron al azar 29 
pinos de incienso para investigarlos, se obtuvieron los datos que se presentan en la 
tabla 11.9, sobre la gravedad especifica en gramos/cm 3 y el modulo de ruptura en 
kilopascales (kPa). Calcule e interprete el coeficiente de correlation muestral. 


Tabla 11.9: Datos de 29 pinos de incienso para el ejemplo 11.10 


Gravedad especifica, 
x (g/cm 3 ) 

Modulo de ruptura, 
V (kPa) 

Gravedad especifica, 
x (g/cm 3 ) 

Modulo de ruptura, 
V (kPa) 

0.414 

29,186 

0.581 

85,156 

0.383 

29,266 

0.557 

69,571 

0.399 

26,215 

0.550 

84,160 

0.402 

30,162 

0.531 

73,466 

0.442 

38,867 

0.550 

78,610 

0.422 

37,831 

0.556 

67,657 

0.466 

44,576 

0.523 

74,017 

0.500 

46,097 

0.602 

87,291 

0.514 

59,698 

0.569 

86,836 

0.530 

67,705 

0.544 

82,540 

0.569 

66,088 

0.557 

81,699 

0.558 

78,486 

0.530 

82,096 

0.577 

89,869 

0.547 

75,657 

0.572 

77,369 

0.585 

80,490 

0.548 

67,095 




Solution: Con los datos se encuentra que 

S xx = 0.11273, S yy = 11,807,324,805, S xy = 34,422.27572. 
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Ejemplo 11.11:1 
Solucion: 


Ejemplo 11.12: 


Por lo tanto, 


34,422.27572 

sj (0.11273)(11, 807, 324, 805) 


0.9435. 


Un coeficiente de correlacion de 0.9435 indica una buena relation lineal entre X y 
Y. Como r 2 = 0.8902, puede clecirse que aproximadamente el 89% de la variation de 
los valores de Y es ocasionada por la relation lineal con X. 

Una prueba de la hipotesis especial p = 0 contra una alternativa apropiada es 
equivalente a probar (3 = 0 para el modelo de regresion lineal simple y, por lo tanto, 
son aplicables los procedimientos de la section 11.8 donde se usaban tanto la distri- 
bution t con n — 2 grados de libertad o la distribution F con 1 y n — 2 grados de 
libertad. Sin embargo, si se desea evitar el procedimiento del analisis de varianza y 
tan solo calcular el coeficiente de correlacion muestral, puede verificarse (vease el 
ejercicio 11.51 en la pagina 438) que el valor t 


t = 


b 



tambien puede escribirse como 

r\Jn — 2 
y/1 — r 2 


que, como antes, es un valor del estadfstico T que tiene distribution t con n — 2 
grados de libertad. 


Para los clatos del ejemplo 11.10, pruebe la hipotesis de que no existe asociacion 
lineal entre las variables. 

1. H 0 : p = 0. 

2. Hp p± 0. 

3. a = 0.05. 

4. Region crftica: t < — 2.052 o t > 2.052. 

5. Calculos: t = = 14.79, P < 0.0001. 

6. Decision: Rechace la hipotesis de que no existe asociacion lineal. 

A partir de la information muestral, es facil efectuar una prueba de la hipotesis 
mas general de que p = po contra una hipotesis alternativa. Si X y Y siguen una 
distribution normal bivariada, la cantidad 



f l+r 
\ 1 — r 


es un valor de una variable aleatoria que sigue aproximadamente la distribution nor- 
mal con media 1 hi y varianza l/(n — 3). Entonces, el procedimiento de prueba 
consiste en calcular 


z = 


y/n — 3 


In 


1 + r 


— In 


( l + Po \ 

[l-PoJ. 


Vn- 3 f (1 + r)(l - po) 

2 n [(l-r)(l+p 0 ) 


y compararlo con los puntos crfticos de la distribucion normal estandar. 


Para los datos del ejemplo 11.10, pruebe la hipotesis nula de que p = 0.9, contra la 
alternativa de que p > 0.9. Utilice un nivel de significance de 0.05. 
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a) Sin asociacion b) Relacion causal 

Figura 11.28: Diagrama de dispersion que muestra correlation de cero. 


Solution: 1 . Hq: p = 0.9. 

2 . Hp. p > 0.9. 

3 . a = 0.05. 

4 . Region critica: z > 1.645. 

5 . Calculos: 


v/26 r(l + 0.9435)(0.1) 
~~2~ “ [(1 -0.9435)(1.9) 


1.51, P = 0.0655. 


6. Decision: Existe con certeza alguna evidencia de que el coeficiente de correlation 
no excede 0.9. 

Debe precisarse que en los estudios de correlation, como en los problemas de 
regresion lineal, los resultados obtenidos solo son tan buenos como el modelo que 
se adopte. En las tecnicas de correlation estudiadas hasta aqui, se supone que las 
variables X y Y tienen una densidad normal bivariada, con el valor medio de Y 
para cada valor x relacionado en forma lineal con x. Con frecuencia es util elaborar 
una grafica preliminar de los datos experimentales para observar lo adecuado de la 
suposicion de linealidad. Un valor del coeficiente de correlation muestral cercano a 
cero resultara de datos que muestren un efecto estrictamente aleatorio, como los de 
la figura 11.28a), lo que implica que hay poca o ninguna relacion causal. Es impor- 
tante recordar que el coeficiente de correlation entre dos variables es una medida 
de su relacion lineal, y que un valor de r = 0 implica falta de linealidad y no falta de 
asociacion. Por lo tanto, si existiera una relacion cuadratica intensa entre X y Y, 
como la que se observa en la figura 11.286), podrfa obtenerse una correlation de cero, 
que indicarfa una relacion no lineal. 
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Ej ercicios 


11.49 Calcule e interprete el coeficiente de correla- 
cion para las calificaciones siguientes de 6 estudiantes 
seleccionados al azar: 


Calificacion en matematicas 

70 

92 

80 

74 

65 

83 

Calificacion en ingles 

74 

84 

63 

87 

78 

90 


11.50 En el ejercicio 11.49 pruebe la hipotesis de que 
p — 0 contra la alternativa de que p ^ 0. Utilice un 
nivel de significancia de 0.05. 

11.51 Demuestre los pasos necesarios para conver- 
tir la ecu acion r = s /^ Sx en l a forma equivalente 


11.52 Los datos siguientes se obtuvieron en un estu- 
dio de la relacion entre el peso y el tamano del pecho 
de ninos recien nacidos: 

Peso (kg) Tamano del pecho (kg) 


2.75 

29.5 

2.15 

26.3 

4.41 

32.2 

5.52 

36.5 

3.21 

27.2 

4.32 

27.7 

2.31 

28.3 

4.30 

30.3 

3.71 

28.7 


a) Calcule r. 

b) Pruebe la hipotesis nula de que p = 0 contra la al- 
ternativa de que p > 0, con un nivel de significancia 
de 0.01. 

c) i,Que porcentaje de la variation de los tamanos del 
pecho de los ninos esta explicado por la diferencia de 
peso? 

11.53 En relacion con el ejercicio 11.1 de la pagina 
397, suponga que x y y son variables aleatorias con 
distribution normal bivariada: 

a) Calcule r. 

b) Pruebe la hipotesis de que p = 0 contra la alterna- 
tiva de que p ^ 0, con un nivel de significancia de 
0.05. 

11.54 Con relacion al ejercicio 11.9 de la pagina 399, 
suponga una distribution normal bivariada para x y 
V- 

a) Calcule r. 

b) Pruebe la hipotesis nula de que p = —0.5, contra la 
alternativa de que p < —0.5, con un nivel de signifi- 
cancia de 0.025. 

c) Determine el porcentaje de la variation en la canti- 
dad de parti'culas removidas que se debe a cambios 
en la cantidad de lluvia diaria. 


Ej ercicios de repaso 


11.55 Con referencia al ejercicio 11.6 de la pagina 
398, construya 

a) un intervalo de confianza de 95% para la calificacion 
promedio en el curso de los estudiantes que obtuvie- 
ron 35 en el examen de colocation. 

b) un intervalo de prediction de 95% para la califica- 
cion del curso de un estudiante que obtuvo 35 en el 
examen de colocation. 

11.56 El Centro de Consulta Estadistica del Instituto 
Politecnico y Universidad Estatal de Virginia analizo 
datos sobre las marmotas normales para el Departa- 
mento de Veterinaria. Las variables de interes fueron el 
peso corporal en gramos y el peso del corazon en gramos. 
Tambien era de interes desarrollar una ecuacion de re- 
gresion lineal, con la finalidad de determinar si habi'a 
una relacion lineal significativa entre el peso del cora- 
zon y el peso total del cuerpo. Utilice el peso del corazon 
como la variable independiente y el peso del cuerpo co- 
mo la dependiente, y haga un ajuste de regresion lineal 
simple con los siguientes datos. Ademas, pruebe la hipo- 


tesis de que H 0 : /3 = 0 contra Hp. (3 ^0. Saque con- 
clusiones. 


Peso corporal Peso del corazon 
(gramos) (gramos) 


4050 

11.2 

2465 

12.4 

3120 

10.5 

5700 

13.2 

2595 

9.8 

3640 

11.0 

2050 

10.8 

4235 

10.4 

2935 

12.2 

4975 

11.2 

3690 

10.8 

2800 

14.2 

2775 

12.2 

2170 

10.0 

2370 

12.3 

2055 

12.5 

2025 

11.8 

2645 

16.0 

2675 

13.8 
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11.57 A continuation se presentan las cantidades de 
solidos removidos de cierto material cuando se expone 
a periodos de secado de diferentes duraciones. 

x (horas) y (gramos) 


4.4 

13.1 

14.2 

4.5 

9.0 

11.5 

4.8 

10.4 

11.5 

5.5 

13.8 

14.8 

5.7 

12.7 

15.1 

5.9 

9.9 

12.7 

6.3 

13.8 

16.5 

6.9 

16.4 

15.7 

7.5 

17.6 

16.9 

7.8 

18.3 

17.2 


a) Estime la recta de regresion lineal. 

b) Pruebe si es adecuado el modelo lineal, con un nivel 
de significancia de 0.05. 

11.58 Con referencia al ejercicio 11.7 de la pagina 

399, construya 

a) un intervalo de confianza de 95% para las ventas 
semanales promedio, cuando se gastan $45 en publi- 
cidad. 

b) un intervalo de prediction para las ventas semanales 
cuando se gastan $45 en publicidad. 


b) Calcule la suma cuadratica del error puro y haga 
una prueba para la falta de ajuste. 

c) ^La information del inciso b) indica la necesidad de 
un modelo en x mas alia del de la regresion de pri- 
mer orden? Explique su respuesta. 

11.60 Los datos siguientes representan la calificacion 
en qunnica de una muestra aleatoria de 12 personas de 


nuevo ingreso a 

cierta escuela, asi 

como sus calificacio- 

nes en una prueba de inteligencia aplicada mientras 
aim no egresaban de la escuela: 


Calificacion 

Calificacion 

Estudiante 

en la prueba, x 

en qunnica, y 

1 

65 

85 

2 

50 

74 

3 

55 

76 

4 

65 

90 

5 

55 

85 

6 

70 

87 

7 

65 

94 

8 

70 

98 

9 

55 

81 

10 

70 

91 

11 

50 

76 

12 

55 

74 


11.59 Se disefio un experimento para el Departamen- 
to de Ingenieria de Materiales del Instituto Politecni- 
co y Universidad estatal de Virginia, para estudiar las 
propiedades de fragilidad del nitrogeno con base en 
las mediciones de la presion de hidrogeno electrolftico. 
Se utilizo una solution al 0.1 N NaOH, material que es 
un tipo de acero inoxidable. La densidad de corriente 
de carga catodica fue controlada y variada en cuatro 
niveles. Se observo la presion de hidrogeno efectiva, 
as! como la respuesta. A continuation se presentan los 
datos. 


Experimento 

1 

2 

3 

4 

5 

6 

7 

8 
9 

10 

11 

12 

13 

14 

15 


Densidad 
de corriente 
de carga, x 
(mA/cm 2 ) 

05 

0.5 

0.5 

0.5 

1.5 

1.5 

1.5 

2.5 

2.5 

2.5 

2.5 

3.5 

3.5 

3.5 

3.5 


Presion de 
hidrogeno 
efectiva, y 
(atm) 

864 

92.1 

64.7 

74.7 

223.6 
202.1 
132.9 

413.5 

231.5 

466.7 

365.3 

493.7 

382.3 
447.2 

563.8 


a) Efectue un analisis de regresion lineal simple de y 
contra x. 


a) Calcule e interprete el coeficiente de correlation de 
la muestra. 

b) Establezca las suposiciones necesarias acerca de las 
variables aleatorias. 

c) Pruebe la hipotesis de que p = 0.5, contra la alter- 
nativa de que p > 0.5. En la conclusion use un valor 
P. 

11.61 Para el modelo de regresion lineal simple, de- 
muestre que E(s 2 ) = cr 2 . 

11.62 La section de negocios del Washington Times 
de marzo de 1997 listaba 21 diferentes computadoras e 
impresoras usadas, asi como sus precios de lista. Tam- 
bien se listaba el ofrecimiento promedio. En la figu- 
ra 11.29 de la pagina 440 se presentan los resultados 
parciales del analisis de regresion usando el software 
SAS. 

a) Explique la diferencia entre el intervalo de confianza 
sobre la media y el intervalo de prediction. 

b) Explique por que los errores estandar de la predic- 
tion varian de una observation a otra. 

c) ^Cual observation tiene el menor error estandar de 
la prediction? ^Por que? 

11.63 Considere los datos de los vehfculos de la figu- 
ra 11.30 de Consumer Reports. Tambien se indican el 
peso en toneladas, el rendimiento en millas por galon y 
la razon de manejo. Se ajusto un modelo de regresion 
que relacionaba el peso x con el rendimiento y. En la 
figura 11.30 de la pagina 441 se presenta una salida 



440 


Capitulo 1 1 Regresion lineal simple y correlacion 


parcial sas que muestra algunos de los resultados de 
dicho analisis de regresion, y en la figura 11.31 de la 
pagina 442 se ilustra la grafica de los residuos y el peso 
de cada vehfculo. 

a) Del analisis y la grafica de los residuos, ^parece que 
pudiera encontrarse un modelo mejorado si se usara 
una transformation? Explique su respuesta. 


b) Ajuste el modelo por medio de reemplazar el peso 
con el logaritmo del peso. Comente los resultados. 

c) Ajuste un modelo por medio de reemplazar mpg con 
los galones por 100 millas recorridas, que es como 
con frecuencia se reporta el rendimiento en otros 
paises. ^Cual de los tres modelos es preferible? Ex- 
plique su respuesta. 


R-Square Coeff Var Root MSE Price Mean 

0.967472 7.923338 70.83841 894.0476 

Standard 

Parameter Estimate Error t Value Pr > It I 


Intercept 59.93749137 38.34195754 1.56 0.1345 

Buyer 1.04731316 0.04405635 23.77 <.0001 

Predict Std Err Lower 95% Upper 957, Lower 95% Upper 95% 


product 

Buyer 

Price 

Value 

Predict 

Mean 

Mean 

Predict 

Predict 

IBM PS/1 486/66 420MB 

325 

375 

400.31 

25.8906 

346.12 

454.50 

242.46 

558.17 

IBM ThinkPad 500 

450 

625 

531.23 

21.7232 

485.76 

576.70 

376.15 

686.31 

IBM Think-Dad 755CX 

1700 

1850 

1840.37 

42.7041 

1750.99 

1929.75 

1667.25 

2013.49 

AST Pentium 90 540MB 

800 

875 

897.79 

15.4590 

865.43 

930.14 

746.03 

1049.54 

Dell Pentium 75 1GB 

650 

700 

740.69 

16.7503 

705.63 

775.75 

588.34 

893.05 

Gateway 486/75 320MB 

700 

750 

793.06 

16.0314 

759.50 

826.61 

641 . 04 

945.07 

Clone 586/133 1GB 

500 

600 

583.59 

20.2363 

541.24 

625.95 

429.40 

737.79 

Compaq Contura 4/25 120MB 

450 

600 

531.23 

21.7232 

485.76 

576.70 

376.15 

686.31 

Compaq Deskpro P90 1 . 2GB 

800 

850 

897.79 

15.4590 

865.43 

930.14 

746 . 03 

1049.54 

Micron P75 810MB 

800 

675 

897.79 

15.4590 

865.43 

930.14 

746.03 

1049.54 

Micron P100 1.2GB 

900 

975 

1002.52 

16.1176 

968.78 

1036.25 

850.46 

1154.58 

Mac Quadra 840AV 500MB 

450 

575 

531.23 

21.7232 

485.76 

576.70 

376.15 

686.31 

Mac Performer 6116 700MB 

700 

775 

793.06 

16.0314 

759.50 

826.61 

641.04 

945.07 

PowerBook 540c 320MB 

1400 

1500 

1526.18 

30.7579 

1461.80 

1590.55 

1364.54 

1687.82 

PowerBook 5300 500MB 

1350 

1575 

1473.81 

28.8747 

1413.37 

1534.25 

1313.70 

1633.92 

Power Mac 7500/100 1GB 

1150 

1325 

1264.35 

21.9454 

1218.42 

1310.28 

1109.13 

1419.57 

NEC Versa 486 340MB 

800 

900 

897.79 

15.4590 

865.43 

930.14 

746.03 

1049.54 

Toshiba 1960CS 320MB 

700 

825 

793.06 

16.0314 

759.50 

826.61 

641 . 04 

945.07 

Toshiba 4800VCT 500MB 

1000 

1150 

1107.25 

17.8715 

1069.85 

1144.66 

954 . 34 

1260.16 

HP Laser jet III 

350 

475 

426.50 

25.0157 

374.14 

478.86 

269.26 

583 . 74 

Apple Laser Writer Pro 63 

750 

800 

845.42 

15.5930 

812.79 

878.06 

693.61 

997.24 


Figura 11.29: Salida sas que muestra el analisis parcial de clatos del ejercicio de repaso 11.62. 


11.64 A continuation se presentan las observaciones 
registradas del producto de una reaction quimica to- 
madas a temperaturas diferentes: 


x (°c) 

y(%) 

x (°c) 

y (%) 

150 

75.4 

150 

77.7 

150 

81.2 

200 

84.4 

200 

85.5 

200 

85.7 

250 

89.0 

250 

89.4 

250 

90.5 

300 

94.8 

300 

96.7 

300 

95.3 


a) Grafique los datos. 

b) De la grafica, /.pareciera que la relation es lineal? 

c) Haga un analisis de regresion lineal simple y pruebe 
la falta de ajuste. 

d) Saque conclusiones con base en el resultado del inci- 
so c). 

11.65 La prueba de acondicionamiento ffsico es un 
aspecto importante del entrenamiento atletico. Una 


medida comun de la magnitud de la aptitud cardio- 
vascular es el volumen maximo de oxfgeno inhalado 
durante un ejercicio extenuante. Se realizo un estudio 
a 24 hombres de edad madura para analizar la in- 
fluencia del tiempo que les tomaba correr una distan- 
cia de dos millas. La medicion del oxigeno inhalado 
se complemento con metodos estandar de laboratorio 
mientras los sujetos estaban en su rutina. El trabajo 
se publico en “Maximal Oxygen Intake Prediction in 
Young and Middle Aged Males”, Journal of Sports 
Medicine 9, 1969, 17-22. A continuation se presentan 
los datos. 


y, Volumen x, Tiempo 
Sujeto maximo de 0 2 en segundos 

1 42.33 918 

2 53.10 805 

3 42.08 892 

4 50.06 962 

5 42.45 968 
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Obs 

Model 

WT 

MPG 

DR_RATI0 

1 

Buick Estate Wagon 

4.360 

16.9 

2.73 

2 

Ford Country Squire Wagon 4.054 

15.5 

2.26 

3 

Chevy Ma libu Wagon 

3.605 

19.2 

2.56 

4 

Chrysler LeBaron Wagon 

3.940 

18.5 

2.45 

5 

Chevette 

2.155 

30.0 

3.70 

6 

Toyota Corona 

2.560 

27.5 

3.05 

7 

Datsun 510 

2.300 

27.2 

3.54 

8 

Dodge Omni 

2.230 

30.9 

3.37 

9 

Audi 5000 

2.830 

20.3 

3.90 

10 

Volvo 240 CL 

3.140 

17.0 

3.50 

11 

Saab 99 GLE 

2.795 

21.6 

3.77 

12 

Peugeot 694 SL 

3.410 

16.2 

3.58 

13 

Buick Century Special 

3.380 

20.6 

2.73 

14 

Mercury Zephyr 

3.070 

20.8 

3.08 

15 

Dodge Aspen 

3.620 

18.6 

2.71 

16 

AMC Concord D/L 

3.410 

18.1 

2.73 

17 

Chevy Caprice Classic 

3.840 

17.0 

2.41 

18 

Ford LTP 

3.725 

17.6 

2.26 

19 

Mercury Grand Marquis 

3.955 

16.5 

2.26 

20 

Dodge St Regis 

3.830 

18.2 

2.45 

21 

Ford Mustang 4 

2.585 

26.5 

3.08 

22 

Ford Mustang Ghia 

2.910 

21.9 

3.08 

23 

Macda GLC 

1.975 

34.1 

3.73 

24 

Dodge Colt 

1.915 

35.1 

2.97 

25 

AMC Spirit 

2.670 

27.4 

3.08 

26 

VW Scirocco 

1.990 

31.5 

3.78 

27 

Honda Accord LX 

2.135 

29.5 

3.05 

28 

Buick Skylark 

2.570 

28.4 

2.53 

29 

Chevy Citation 

2.595 

28.8 

2.69 

30 

Olds Omega 

2.700 

26.8 

2.84 

31 

Pontiac Phoenix 

2.556 

33.5 

2.69 

32 

Plymouth Horizon 

2.200 

34.2 

3.37 

33 

Datsun 210 

2.020 

31.8 

3.70 

34 

Fiat Strada 

2.130 

37.3 

3.10 

35 

VW Dasher 

2.190 

30.5 

3.70 

36 

Datsun 810 

2.815 

22.0 

3.70 

37 

BMW 320i 

2.600 

21.5 

3.64 

38 

VW Rabbit 

1.925 

31.9 

3.78 

R-Square Coeff Var 

Root MSE 

MPG Mean 

0 , 

.817244 11.46010 

2.837580 

24.76053 



Standard 



Parameter Estimate 

Error 

t Value 

Pr > | t | 

Intercept 48.67928080 

1.94053995 

25.09 

<•0001 

WT 

-8.36243141 

0.65908398 

-12.69 

<■0001 


Figura 11.30: Salida SAS que muestra el analisis parcial de los datos del ejercicio de repaso 11.63. 


Sujeto 

y, Volumen 
maximo de 0 2 

x, Tiempo 
en segundos 

6 

42.46 

907 

7 

47.82 

770 

8 

49.92 

743 

9 

36.23 

1045 

10 

49.66 

810 

11 

41.49 

927 

12 

46.17 

813 

13 

46.18 

858 

14 

43.21 

860 

15 

51.81 

760 


Sujeto 

y, Volumen 
maximo de 0 2 

x, Tiempo 
en segundos 

16 

53.28 

747 

17 

53.29 

743 

18 

47.18 

803 

19 

56.91 

683 

20 

47.80 

844 

21 

48.65 

755 

22 

53.67 

700 

23 

60.62 

748 

24 

56.73 

775 




442 


Capitulo 1 1 Regresion lineal simple y correlacion 


Plot of Resid*WT. Symbol used is 


Resid I 
8 + 


6 + 


4 + 


2 + 


0 +• 


-2 + 


-4 + 


-6 + 


1.5 


* 


* 


* 


* 


* 


* 


* 


* 


* 


* 

* 

* 


* 


* 


* 


* 


* 


* 

* 

* 


* 


* 
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* * 


* 


* 


* 


* 


* 


* 


* 


2.0 2.5 3.0 3.5 4.0 4.5 

WT 


Figura 11.31: Salida SAS que muestra la grafica de residuos del ejercicio de repaso 11.63. 


а) Estime los parametros en un modelo de regresion 
lineal simple. 

б) ^El tiempo que toma correr dos millas tiene influen- 
cia significativa sobre el maximo oxigeno inspirado? 
Utilice 


H q \ (3 = 0, 

Hr- 0^0. 

c) Grafique los residuos en una grafica contra x, y haga 
comentarios sobre lo apropiado del modelo lineal 
simple. 
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11.66 Suponga que cierto cienti'fico postula el modelo 
Yi = a + pXi + €i, i = 1, 2, . . . , n, 

y a es un valor conocido no necesariamente igual a 
cero. 

а) /.Cual es el estimador apropiado de mmimos cuadra- 
dos de fP Justifique su respuesta. 

б) /.Cual es la varianza del estimador de la pendiente? 

11.67 En el ejercicio 11.30 de la pagina 413 se pidio 

n 

al estudiante que demostrara que y ^ f (Vi — yi) = Opara 

i= 1 

un modelo de regresion lineal simple. /.Se cumple tam- 
bien para un modelo con intersection en el origen? De- 
muestre por ciue. 


11.68 Considere el conjunto de datos imaginarios que 
se muestra en seguida, donde la li'nea que pasa a tra- 
ves de los datos es la recta de regresion lineal simple. 
Dibuje una grafica de residuos para el modelo ajustado 
anteriormente. 



11.13 Nociones erroneas y riesgos potenciales; 

relacion con el material de otros capftulos 

Siempre que se considere la utilization de la regresion lineal simple, elaborar una 
grafica de los datos no solo es recomendable, sino esencial. Siempre es edificante 
elaborar una grafica de los residuos, tanto con la distribution t de Student, como la 
de probabilidad normal de ellos. Todas esas graficas estan disenadas para detectar 
la trasgresion de las suposiciones. 

El uso de los estadfsticos t para las pruebas sobre los coeficientes de regresion es 
razonablemente robusto para la suposicion de normalidad. La suposicion de varianza 
homogenea es crucial, y las graficas de los residuos estan disenadas para detectar la 
trasgresion de ella. 
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Regresion lineal multiple y ciertos 
modelos de regresion no lineal 


12.1 Introduccion 

En la mayorfa de problemas de investigation donde se aplica el analisis de regresion, 
se necesita mas de una variable independiente en el modelo de regresion. La comple- 
jidad de la mayoria de mecanismos cientfficos es tal que, con la finalidad de predecir 
una respuesta importante, se requiere un modelo de regresion multiple. Cuando 
este modelo es lineal en los coeficientes se denomina modelo de regresion lineal 
multiple. Para el caso de k variables independientes, aq, x 2 , ... , x k , la media de 
Y | x\, £ 2 , • • • , Xk esta dada por el modelo de regresion lineal multiple 

[J j Y\xi,X2,- -,x k /^0 "b ' ' * [3 k Xk, 

y la respuesta estimada se obtiene a partir de la ecuacion de regresion muestral 

y = b 0 + biXi H b b k x k , 

donde cada coeficiente de regresion (3i es estimado por 6; de los datos muestrales 
usando el metodo de los mmimos cuadrados. Como en el caso de una sola variable 
independiente, es frecuente que el modelo de regresion lineal sea una representation 
adecuada de una estructura mas complicada dentro de ciertos rangos de las variables 
independientes. 

Tambien pueden aplicarse tecnicas similares de mmimos cuadrados para estimar 
los coeficientes cuando el modelo lineal incluye, por ejemplo, potencias y productos 
de las variables independientes. Por ejemplo, cuando k = 1, el experimentador quiza 
sienta que la media Hy\x no cae sobre una lrnea recta, sino que queda clescrita con 
mas propiedad por el modelo de regresion polinomial 

y-Y\x = A) + P\X + P 2 X 2 + ■ ■ ■ + f3 r X r , 

y la respuesta estimada se obtenga de la ecuacion de regresion polinomial 

y = bo + b\x + b 2 X 2 + ■ • ■ + b r x r . 
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En ocasiones se genera confusion al decir que un modelo polinomial es uno lineal. 
Sin embargo, los estadisticos normalmente se refieren a un modelo lineal como aquel 
donde los parametros ocurren en forma lineal, sin importar la manera en que las 
variables independientes aparezcan en el modelo. Un ejemplo de modelo no lineal es 

la relacion exponencial 


hY\x Clfl , 

que se estima mediante la ecuacion de regresion 

y = ab x . 

En ciencias e ingenieria hay muchos fenomenos de naturaleza inherentemente 
no lineal y, cuando se conoce la estructura verdadera, no hay duda de que cleberia 
intentarse ajustar el modelo real. Es muy abundante la bibliografia acerca de la 
estimation con minimos cuadrados de modelos no lineales. Aun cuando en este libro 
no se trata de cubrir en forma rigurosa la regresion no lineal, en la section 12.12 
estudiaremos ciertos tipos especfficos de modelos no lineales. Los modelos no lineales 
que se analizan en este capitulo se refieren a condiciones no ideales, en las cuales el 
analista esta seguro de que la respuesta y, por lo tanto, la respuesta del error del 
modelo, no tienen distribution normal, sino que mas bien siguen una binomial o una 
de Poisson. Estas situaciones ocurren mucho en la practica. 

El estudiante que desee un estudio mas general de la regresion no lineal debe con- 
sultar la obra de Myers Classical and Modern Regression with Applications (vease 
la bibliografia). 


12.2 Estimacion de los coeficientes 

En esta section se obtienen los estimadores de mmimos cuadrados de los parametros 
00, 0i , . . . , 0k mediante el ajuste del modelo de regresion lineal multiple 

l l Y\x 1 ,xi 1 ...,x k — 0 o + 0 i%\ + ■ ■ ■ + 0 k^k 

a los puntos de los datos 

{(xu,x 2 i,...,x k i,yi), i = l,2,...,n y n > k}, 

donde iji, es la respuesta observada a los valores Xu, X 2 %, • ■ • , Xki de las k variables 
independientes X\, X2, ■ ■ ■ , x k - Se supone que cada observation (xu, X2%, ■ ■ ■ , Xki, yi) 
satisface la siguiente ecuacion: 


Modelo de 
regresion lineal 

multiple o bien, 


Vi = 00 + 0i Xu + 02X 2 i H h 0kXki + e», 


Vi = jji + e» = b 0 + bixu + b 2 x 2 i H h b k x ki + 


donde ei y e, son los errores aleatorio y residual, respectivamente, asociados con 
la respuesta yi y con el valor ajustado y l . 

Como en el caso de la regresion lineal simple, se supone que los e* son indepen- 
dientes, y estan distribuidos en forma identica con media cero y varianza comun a 2 . 
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Tabla 12.1: Datos para el Ejemplo 12.1 


Oxido 
nftrico, y 

Humedad, 

Xi 

Temp., 

x 2 

Presion 

X3 

Oxido 
m'trico, y 

Humedad, 

X\ 

Temp., 

x 2 

Presion 

X3 

0.90 

72.4 

76.3 

29.18 

1.07 

23.2 

76.8 

29.38 

0.91 

41.6 

70.3 

29.35 

0.94 

47.4 

86.6 

29.35 

0.96 

34.3 

77.1 

29.24 

1.10 

31.5 

76.9 

29.63 

0.89 

35.1 

68.0 

29.27 

1.10 

10.6 

86.3 

29.56 

1.00 

10.7 

79.0 

29.78 

1.10 

11.2 

86.0 

29.48 

1.10 

12.9 

67.4 

29.39 

0.91 

73.3 

76.3 

29.40 

1.15 

8.3 

66.8 

29.69 

0.87 

75.4 

77.9 

29.28 

1.03 

20.1 

76.9 

29.48 

0.78 

96.6 

78.7 

29.29 

0.77 

72.2 

77.7 

29.09 

0.82 

107.4 

86.8 

29.03 

1.07 

24.0 

67.7 

29.60 

0.95 

54.9 

70.9 

29.37 


Fuente: Charles T. Hare, “Light-Duty Diesel Emission Correction Factors for Ambient Conditions”, EPA-600/2-77-116. 
U. S. Environmental Protection Agency. 


A1 usar el concepto de mmirnos cuadrados para obtener los estimadores bp, b\,. . . , 
bk, minimizamos la expresion 


n n 

sse = y e 2 = - b 0 - bixu - b 2 x 2 i b k x ki ) 2 . 

i=l i—1 


Que se deriva con respecto de bo, bi,..., b k , para igualar el resultado a cero y generar 
el conjunto de k + 1 ecuaciones normales de estimacion para la regresion 
lineal multiple. 


Ecuaciones 


n 

n 

n 

n 

normales de 

nb 0 

+ h ^2 xu 

+b>2 ^ 2 x<2i "1" * 

■ ■ +b k yx ki 


estimacion para 


i= 1 

i=l 

i=i 

i=i 

la regresion lineal 
multiple 

n 

bp y; xu 

n 

+ b iJ2 x ^ 

n 

+^2 Xli%2i + ' 

n 

^ ^ Xi iXki 

n 

= Y.xu* 


i=i 

t=i 

i= 1 

i= 1 

i=l 


n 

bo ^2 %ki 
i= 1 

n 

+ h x k jX 1 , 

i=l 

n 

i+b 2 ^2 x kiX 2i + ■ 

1=1 

n 

• • +bk x 2 ki 

i=i 

n 

= y ^ xkiUi 
i= 1 


Para obtener los valores de bo, b\,..., b k estas ecuaciones se resuelven con cual- 
quier metodo apropiado para sistemas de ecuaciones lineales. 


Ejemplo 12.1:1 Se realizo un estudio acerca de camiones ligeros movidos por diesel para saber si la 
humedad, la temperatura del aire y la presion barometrica influfan en la emision de 
oxido nitroso (en ppm). Las emisiones se midieron a distintas horas, en condiciones 
experimentales diversas. En la tabla 12.1 se presentan los datos. El modelo es 


Fy \xi ,X 2 ,X 3 


flo + flixi + P2X2 + P3X3, 
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o, en forma equivalente, 


Vi = fo + Pixu + fox 2 i + fox 3i + e», i = 1,2,..., 20. 

Ajuste un modelo de regresion lineal multiple a los datos dados y luego estime la 
cantidad de oxido nitroso para las condiciones en que la humedad es de 50%, tem- 
peratura de 76 °F y presion barometrica de 29.30. 

Solucion: La solucion del conjunto de las ecuaciones de estimation da los estimadores unicos 

b 0 = -3.507778, bi = -0.002625, b 2 = 0.000799, b 3 = 0.154155. 

Por lo tanto, la ecuacion de regresion es 

y = -3.507778 - 0.002625 x\ + 0.000799 x 2 + 0.154155 x 3 . 

Para una humedad de 50%, temperatura de 76 °F y presion barometrica de 29.30, 
la cantidad estimada de oxido nitroso es 

y = -3.507778 - 0.002625(50.0) + 0.000799(76.0) + 0.1541553(29.30) 

= 0.9384 ppm. 


Regresion polinomial 

Ahora, suponga que se desea ajustar la ecuacion polinomial 
Py \x = /?o + fiix + fox 2 + • • • + fox r 

para las n parejas de observaciones {(a;,, yi)\ i = 1, 2,..., n}. Cada observacion, 
Ui, satisface la ecuacion 

Vi = fo + foXi + fox 2 4 h foxl + Ei 

o bien, 

Vi = Vi + ej = 6 0 + biXi + b 2 x \ 4 h b r x\ 4- e iy 

donde r es el grado del polinomio, y e* y ei son, de nuevo, los errores aleatorio y resi- 
dual asociados con la respuesta y,; y con el valor ajustado y, respectivamente. Aqui, 
el numero de parejas, n, debe ser al menos r 4- 1, que es el numero de parametros 
por estimar. 

Observe que el modelo polinomial puede considerarse un caso especial del modelo 
de regresion lineal mas general, donde se hace X\ = x, x 2 = x 2 , . . . , x r = x r . Las 
ecuaciones normales adoptan la misma forma que se da en la pagina 447. Luego se 
resuelven para b±, b 2 ,..., b r . 


Ejemplo 12.2:1 Dados los datos 


X 

0 

l 

2 

3 

4 

5 

6 

7 8 

9 

y 

9.1 

7.3 

3.2 

4.6 

4.8 

2.9 

5.7 

7.1 8.8 

10.2 



12.3 Modelo de regresion lineal con el empleo de matrices (opcional) 


449 


ajuste una curva de regresion de la forma py\ x = Po + PiX + fax 2 y, luego, estime 

PY\2- 

Solucion: De los datos, se encuentra que 


10 6 0 +45 6i + 28 5 6 2 = 63.7, 

45 6 0 + 285 61 + 2, 025 62 = 307.3, 

28 5 6 0 + 2< 025 61 + 15, 333 6 2 = 2153.3. 
A1 resolver las ecuaciones normales se obtiene 


Por lo tanto, 


6 0 = 8.698, bi = -2.341, b 2 = 0.288. 
y = 8.698 - 2.341 x + 0.288 x 2 . 


Cuando x = 2, la estimation de py | 2 , es 


y = 8.698 - (2.341)(2) + (0.288)(2 2 ) = 5.168. 


12.3 Modelo de regresion lineal con el empleo de matrices 
(opcional) 

A1 ajustar un modelo de regresion lineal multiple, en particular cuando el numero 
de variables es mayor que dos, el dominio de la teoria de matrices facilita en forma 
considerable las manipulaciones matematicas. Suponga que el experimentador tiene 
k variables independientes xi, x 2 , . . . , Xk y n observations yi, y 2 , ■ ■ ■ , y n , cada una 
de las cuales puede expresarse con la ecuacion 

Vi = Po + Pixu + P2X2i H b PkXu + e»- 

Este modelo representa en esencia a n ecuaciones que describen como se generan 
los valores de la respuesta durante el proceso cientffico. Con notation matricial, se 
escribe la ecuacion siguiente 


Modelo lineal 
general 

clonde 


y = X/3 + e, 



yi 


1 X 11 X 2 1 • 

%kl 


flo 


€l 

y = 

V2 

, x = 

1 X 12 X 22 ■ 

%k2 

, P = 

Pi 

, e = 

^2 


Vn_ 


1 X\ n X2n 

?r • 
3 


Pk 


_^n_ 


Despues, la solucion por mmimos cuadrados para la estimation de /? que se ilustro 
en la seccion 12.2, implica el calculo de b para la que 

sse= (y-Xb)'(y-Xb) 

es minima. Este proceso de minimization implica resolver para b la ecuacion 


+ (SSE ) = 0. 
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Aquf no presentaremos los detalles de las soluciones de las ecuaciones anteriores. El 
resultado se reduce a la solution de b en 

(X'X)b = X'y. 

Observe la naturaleza de la matriz X. Aclemas del elemento initial, el i-esimo ren- 
glon representa los valores de x que dan lugar a la respuesta y,;. Queda: 


n n n 



n 

E x n 

i= 1 

E x 2i 

i = 1 

%ki 

i= 1 

A = X'X = 

E x i i 

E x ii 


'Kli'X'ki 

i—1 


n 

%ki 

U= i 

n 

i= 1 

n 

%ki%2i 

n 

• 

i= 1 


y 


g = X'y = 


9o = J2 Vi 

n 

si = E x uVi 

i = 1 


9k — E! x kiVi 


las ecuaciones normales pueden escribirse en forma matricial como 

Ab = g. 

Si la matriz A es no singular, la solution para los coeficientes de regresion se escribe 
como 


b = A- 1 g=(X'X)“ 1 X'y. 

Asi, obtenemos la ecuacion de prediction o regresion al resolver un conjunto de 
k + 1 ecuaciones con un mimero igual de incognitas. Esto implica que se invierta la 
matriz X'X de or den k + 1 por k + 1. En la mayorfa de libros sobre determinantes 
y matrices elementales se explican las tecnicas para invertir matrices. Por supuesto, 
hay disponibles muchos paquetes rapidos de computadora para resolver problemas 
de regresion multiple, los cuales no solo dan salida de las estimaciones de los coefi- 
cientes de regresion, sino que tambien ofrecen otra clase de information relevante 
para hacer inferencias acerca de la ecuacion de regresion. 


Ejemplo 12.3:1 Se midio el porcentaje de supervivencia de cierto tipo de semen animal, despues de 
almacenarlo, con distintas combinaciones de concentraciones de tres materiales que 
se emplean para incrementar su probabilidad de sobrevivir. En la tabla 12.2 se pre- 
sentan los datos. Obtenga el modelo de regresion lineal multiple para los datos. 
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Tabla 12.2: Datos para el ejemplo 12.3 


y (porcentaje de 
supervivencia) 

xi (porcentaje 
de peso) 

®2 (porcentaje 
de peso) 

*3 (porcentaje 
de peso) 

25.5 

1.74 

5.30 

10.80 

31.2 

6.32 

5.42 

9.40 

25.9 

6.22 

8.41 

7.20 

38.4 

10.52 

4.63 

8.50 

18.4 

1.19 

11.60 

9.40 

26.7 

1.22 

5.85 

9.90 

26.4 

4.10 

6.62 

8.00 

25.9 

6.32 

8.72 

9.10 

32.0 

4.08 

4.42 

8.70 

25.2 

4.15 

7.60 

9.20 

39.7 

10.15 

4.83 

9.40 

35.7 

1.72 

3.12 

7.60 

26.5 

1.70 

5.30 

8.20 


Solucion: Las ecuaciones de estimation por mmirnos cuadrados, (X'X)b = X'y, son 


13 59.43 81.82 115.40 ‘ 


bo 


377.5 ‘ 

59.43 394.7255 360.6621 522.0780 


bi 


1877.567 

81.82 360.6621 576.7264 728.3100 




2246.661 

115.40 522.0780 728.3100 1035.9600 


p3_ 


3337.780 


Con una computadora se obtienen los elementos de la matriz inversa 


(X'X)' 1 


8.0648 

-0.0826 

-0.0942 

-0.7905 


-0.0826 

0.0085 

0.0017 

0.0037 


-0.0942 

0.0017 

0.0166 

- 0.0021 


-0.7905 

0.0037 

- 0.0021 

0.0886 


y, luego, con la relation b = (X'X) 1 X'y se llega a que los coeficientes de regresion 
estimados son 

b 0 = 39.1574, b\ = 1.0161, b 2 = -1.8616, b 3 = -0.3433. 

Entonces, la ecuacion de regresion estimada es 

y = 39.1574 + 1.0161 x\ - 1.8616 £ 2 - 0.3433 2 : 3 - 


Ejemplo 12.4:1 Los datos de la tabla 12.3 representan el porcentaje de impurezas que ocurren a dis- 
tintas temperaturas y tiempos de esterilizacion durante una reaction asociada con la 
manufactura de cierta bebida. 

Estime los coeficientes de regresion en el modelo polinomial 

Vi = (3 0 + PiX\ i + 02X2 i + + P 22 X 2 i + Pl2X\iX 2 i + £j, 

para i = 1 , 2, . . . , 18. 
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Tabla 12.3: Datos para el ejemplo 12.4 


Tiempo de 

Temperatura, 

(°C) 

esterilizacion, x 2 (min) 

75 

100 

125 

15 

14.05 

10.55 

7.55 


14.93 

9.48 

6.59 

20 

16.56 

13.63 

9.23 


15.85 

11.75 

8.78 

25 

22.41 

18.55 

15.93 


21.66 

17.98 

16.44 


Solucion: 


bo = 56.4411, 6 i = -0.36190, b 2 = -2.75299, 

&n = 0.00081, 622 = 0.08173, 612 = 0.00314, 


y la ecuacion estimada de regresion es 


y =56.4411 - 0. 36190a: 1 - 2.75299x2 + 0.00081^ 

+ 0.08173x2 + 0.00314 xiX2- 

Muchos de los principios y procedimientos asociados con la estimation de funcio- 
nes de regresion polinomiales caen en la categoria de la metodologfa de respuesta 
superficial, que es un conjunto de tecnicas que emplean con exito los cientfficos e 
ingenieros de muchos campos. Las xf sc denominan terminos cuadraticos puros, 
y las XiXj (i ^ j) se llaman terminos de interaction. Problemas tales como 
seleccionar un diseho experimental adecuado, en particular en casos donde un mimero 
muy grande de variables entra en el modelo, y elegir condiciones “optimas” de opera- 
cion sobre Xi, X 2 , . . . , Xfc con frecuencia se abordan a traves de dichos metodos. Para 
un estudio mas amplio, se recomienda al lector recurrir a la obra de Myers y Mont- 
gomery Response Surface Methodology: Process and Product Optimization Using 
Designed Experiments (vease la bibliografia) . 


Ej ercicios 


12.1 Para el ejercicio de repaso 11.60 de la pagina 
439, suponga que tambien se da el mimero de periodos 
de clase perdidos por los 12 estudiantes que toman el 
curso de qufmica. A continuation se presentan los da- 
tos completos. 


Estudiante 

Calificacion 

en 

qufmica, y 

Calificacion 
en el 

examen, x 1 

Clases 

perdidas, 

x 2 

1 

85 

65 

1 

2 

74 

50 

7 

3 

76 

55 

5 

4 

90 

65 

2 

5 

85 

55 

6 

6 

87 

70 

3 

7 

94 

65 

2 

8 

98 

70 

5 


Estudiante 

Calificacion 

en 

qufmica, y 

Calificacion 
en el 

examen, x. 

Clases 

perdidas, 

x 2 

9 

81 

55 

4 

10 

91 

70 

3 

11 

76 

50 

1 

12 

74 

55 

4 


a) Ajuste una ecuacion de regresion lineal multiple de 
la forma y = b 0 + 61 X 1 + b 2 x 2 - 

b) Estime la calificacion en qufmica para un estudiante 
que obtuvo una calificacion de 60 en el examen de 
inteligencia y perdio 4 clases. 

12.2 En Applied Spectroscopy se estudian las propie- 
dades de reflectancia infrarroja de un lfquido viscoso 



Ejercicios 


453 


utilizado en la industria electronica como lubricante. 
El experimento que se diseno consistio en el efecto de 
frecuencia de banda X\y espesor de peh'cula X 2 sobre la 
densidad optica y usando un espectrometro infrarrojo 
Perkin-Elmer Modelo 621. [Fuente: Pachansky, J., En- 
gland, C. D., y Wattman, R. “Infrarred spectroscopic 
studies of poly (perflouropropyleneoxide) on gold subs- 
trate. A classical dispersion analysis for the refractive 
index.” Applied Spectroscopy , vol. 40, num. 1, enero de 
1986, p. 9, table 1.] 


y 

Xl 

x 2 

0.231 

740 

1.10 

0.107 

740 

0.62 

0.053 

740 

0.31 

0.129 

805 

1.10 

0.069 

805 

0.62 

0.030 

805 

0.31 

1.005 

980 

1.10 

0.559 

980 

0.62 

0.321 

980 

0.31 

2.948 

1,235 

1.10 

1.633 

1,235 

0.62 

0.934 

1,235 

0.31 

Estime la ecuacion de regresion lineal multiple 

y = 

bo + b\X\ + 62X2 • 

12.3 Se efectuo un conjunto de ensayos experimenta- 
les para determinar una forma de predecir el tiempo de 
coccion y a diferentes niveles del ancho de horno x\ y 

temperaturas de la chimenea X 2 - 
datos registrados: 

Los siguientes son los 

y 

Xl 

x 2 

6.40 

1.32 

1.15 

15.05 

2.69 

3.40 

18.75 

3.56 

4.10 

30.25 

4.41 

8.75 

44.85 

5.35 

14.82 

48.94 

6.20 

15.15 

51.55 

7.12 

15.32 

61.50 

8.87 

18.18 

100.44 

9.80 

35.19 

111.42 

10.65 

40.40 


Estime la ecuacion de regresion lineal multiple 


Mv |xi,x2 — /^o PiXi 4” (S 2 X 2 . 

12.4 Se realizo un experimento para determinar si 
podia predecirse el peso de un animal despues de un 
periodo dado, sobre la base de su peso initial y la can- 
tidad de alimento que habfa consumido. Se registraron 
los siguientes datos, en kilogramos: 


Peso 
final, y 

Peso 

inicial, *1 

Peso del 
alimento, a 

95 

42 

272 

77 

33 

226 

80 

33 

259 

100 

45 

292 

97 

39 

311 


Peso 
final, y 

Peso 

inicial, x\ 

Peso del 
alimento, a 

70 

36 

183 

50 

32 

173 

80 

41 

236 

92 

40 

230 

84 

38 

235 


a ) Ajuste una ecuacion de regresion multiple de la forma 

l^Y \x\,X2 /^0 /3lXl -|- f3'2X2- 

b) Prediga el peso final de un animal que tenfa un peso 
inicial de 35 kilogramos y consumio 250 kilogramos 
de alimento. 

12.5 a) Ajuste una ecuacion de regresion multiple de 
la forma Py\x = fo + foxi + fox 2 a los datos del 
ejemplo 11.8. 

b) Estime el producto de la reaction qufmica para una 
temperatura de 225 °C. 

12.6 Se efectuo un experimento sobre un modelo nue- 
vo de una marca de automovil especffica, para deter- 
minar la distancia de frenado a distintas velocidades. 
A continuation se presentan los datos registrados. 


Velocidad, v (km/h) 

35 50 65 80 95 110 

Distancia de frenado, d(m) 

16 26 41 62 88 119 


a) Ajuste una curva de regresion multiple de la forma 
Hd\v = fo + fov + fov 2 . 

b) Estime la distancia de frenado cuando el carro viaje 
a 70 kilometros por hora. 

12.7 Se efectuo un experimento con la finalidad de 
determinar si el flujo sangumeo cerebral de los seres 
humanos podia predecirse a partir de la tension arterial 
del oxi'geno (milhnetros de mercurio). En el estudio se 
utilizaron 15 pacientes y se observaron los siguientes 
datos: 

Flujo sangumeo, Tension arterial 
y del oxfgeno, x 


84.33 

603.40 

87.80 

582.50 

82.20 

556.20 

78.21 

594.60 

78.44 

558.90 

80.01 

575.20 

83.53 

580.10 

79.46 

451.20 

75.22 

404.00 

76.58 

484.00 

77.90 

452.40 

78.80 

448.40 

80.67 

334.80 

86.60 

320.30 

78.20 

350.30 
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Estime la ecuacion de regresion cuadratica 
Py\x = do + fox + fox 2 . 

12.8 El siguiente es un conjunto de datos experimen- 
tales codificados acerca de la resistencia a la compre- 
sion de una aleacion especffica, para valores distintos 
de la concentracion de cierto aditivo: 

Concentracion, Resistencia a la 

x compresion, y 


10.0 

25.2 

27.3 

28.7 

15.0 

29.8 

31.1 

27.8 

20.0 

31.2 

32.6 

29.7 

25.0 

31.7 

30.1 

32.3 

30.0 

29.4 

30.8 

32.8 


a) Estime la ecuacion de regresion cuadratica gy\ x = 
fo + fox + fox 2 . 

b) Pruebe la falta de ajuste del modelo. 

12.9 Se cree que la energia electrica consumida cada 
mes por una planta qufmica esta relacionada con la 
temperatura ambiental promedio x±, el numero de dfas 
del mes £2, la pureza promedio del producto £3 y las 
toneladas fabricadas del producto £4. Se dispone de 
datos historicos que se presentan en la siguiente tabla. 


y 

£1 

£2 

£3 

X4 

240 

25 

24 

91 

100 

236 

31 

21 

90 

95 

290 

45 

24 

88 

110 

274 

60 

25 

87 

88 

301 

65 

25 

91 

94 

316 

72 

26 

94 

99 

300 

80 

25 

87 

97 

296 

84 

25 

86 

96 

267 

75 

24 

88 

110 

276 

60 

25 

91 

105 

288 

50 

25 

90 

100 

261 

38 

23 

89 

98 


a) Ajuste un modelo de regresion lineal multiple usan- 
do el conjunto de los datos anteriores. 

b) Prediga el consumo de energia para un mes en que 
£1 = 75 °F, £2 = 24 dfas, £3 = 90% y £4 = 98 tone- 
ladas. 

12.10 Para los datos siguientes 


X 

0 

1 

2 

3 

4 

5 

6 

y 

1 

4 

5 

3 

2 

3 

4 


a) Ajuste el modelo cubico gy\ x = fo + fox + fox 2 + 
fox z . 

b) Prediga el valor de Ecuando x = 2. 

12.11 El departamento de personal de cierta compa- 
nfa industrial utilizo a 15 sujetos en un estudio, con la 
finalidad de determinar la relation entre la calificacion 


de su desempeno en el trabajo ( y ) y las calificaciones de 
cuatro examenes. Los datos son los siguientes: 


y 

£1 

£2 

£3 

X4 

11.2 

56.5 

71.0 

38.5 

43.0 

14.5 

59.5 

72.5 

38.2 

44.8 

17.2 

69.2 

76.0 

42.5 

49.0 

17.8 

74.5 

79.5 

43.4 

56.3 

19.3 

81.2 

84.0 

47.5 

60.2 

24.5 

88.0 

86.2 

47.4 

62.0 

21.2 

78.2 

80.5 

44.5 

58.1 

16.9 

69.0 

72.0 

41.8 

48.1 

14.8 

58.1 

68.0 

42.1 

46.0 

20.0 

80.5 

85.0 

48.1 

60.3 

13.2 

58.3 

71.0 

37.5 

47.1 

22.5 

84.0 

87.2 

51.0 

65.2 


Estime los coeficientes de regresion del modelo 
y = b 0 + b\X\ + b 2 x 2 + b 3 x 3 + 6 4 £ 4 . 

12.12 Los siguientes datos reflejan information obte- 
nida en 17 hospitales de la marina estadounidense en 
varios sitios del mundo. Los regresores son variables de 
la carga de trabajo, es decir, conceptos que daban como 
resultado la necesidad de personal en una instalacion 
hospitalaria. A continuation se presenta una descrip- 
cion breve de las variables: 

y = horas-trabajo mensuales, 

£1 = carga diaria promedio de pacientes, 

£2 = exposiciones de ray os X mensuales, 

£3 = dfas-cama ocupados mensuales, 

£4 = poblacion elegible en el area/ 1000, 

£5 = duration promedio de la permanencia de un 
paciente, en dfas. 


Sitio £1 

X2 

£3 

X4 

X5 

y 

1 

15.57 

2463 

472.92 

18.0 

4.45 

566.52 

2 

44.02 

2048 

1339.75 

9.5 

6.92 

696.82 

3 

20.42 

3940 

620.25 

12.8 

4.28 

1033.15 

4 

18.74 

6505 

568.33 

36.7 

3.90 

1003.62 

5 

49.20 

5723 

1497.60 

35.7 

5.50 

1611.37 

6 

44.92 

11520 

1365.83 

24.0 

4.60 

1613.27 

7 

55.48 

5779 

1687.00 

43.3 

5.62 

1854.17 

8 

59.28 

5969 

1639.92 

46.7 

5.15 

2160.55 

9 

94.39 

8461 

2872.33 

78.7 

6.18 

2305.58 

10 

128.02 

20106 

3655.08 

180.5 

6.15 

3503.93 

11 

96.00 

13313 

2912.00 

60.9 

5.88 

3571.59 

12 

131.42 

10771 

3921.00 

103.7 

4.88 

3741.40 

13 

127.21 

15543 

3865.67 

126.8 

5.50 

4026.52 

14 

252.90 

36194 

7684.10 

157.7 

7.00 

10343.81 

15 

409.20 

34703 

12446.33 

169.4 

10.75 

11732.17 

16 

463.70 

39204 

14098.40 

331.4 

7.05 

15414.94 

17 

510.22 

86533 

15524.00 

371.6 

6.35 

18854.45 


El objetivo es generar una ecuacion empfrica para es- 
timar (o predecir) las necesidades de personal en los 
hospitales de la marina. Estime la ecuacion de regre- 
sion lineal multiple 
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^Y\x 1 ,x 2 ,x 3 ,x i ,x 5 

= 0 o + 0 iXi + P2X2 + foxz + ( 3 iXi + 0 5X5 ■ 

12.13 Se realizo un experimento para estudiar el 
tamano de los calamares consumidos por tiburones y 
atunes. Las variables regresoras son caracteri'sticas del 
pico o la boca del calamar. Las variables regresoras 
y la respuesta considerada para el estudio son las si- 
guientes: 

X\ = longitud del morro, en pulgadas, 

X2 = longitud de aleta, en pulgadas, 

*3 = longitud del morro a la cola, en pulgadas, 
X4 = longitud de la cola a la aleta, en pulgadas, 
*5 = ancho, en pulgadas, 
y — peso, en libras. 


Xi 

X2 

x 3 

X4 

x 5 

y 

1.31 

1.07 

0.44 

0.75 

0.35 

1.95 

1.55 

1.49 

0.53 

0.90 

0.47 

2.90 

0.99 

0.84 

0.34 

0.57 

0.32 

0.72 

0.99 

0.83 

0.34 

0.54 

0.27 

0.81 

1.01 

0.90 

0.36 

0.64 

0.30 

1.09 

1.09 

0.93 

0.42 

0.61 

0.31 

1.22 

1.08 

0.90 

0.40 

0.51 

0.31 

1.02 

1.27 

1.08 

0.44 

0.77 

0.34 

1.93 

0.99 

0.85 

0.36 

0.56 

0.29 

0.64 

1.34 

1.13 

0.45 

0.77 

0.37 

2.08 

1.30 

1.10 

0.45 

0.76 

0.38 

1.98 

1.33 

1.10 

0.48 

0.77 

0.38 

1.90 

1.86 

1.47 

0.60 

1.01 

0.65 

8.56 

1.58 

1.34 

0.52 

0.95 

0.50 

4.49 

1.97 

1.59 

0.67 

1.20 

0.59 

8.49 

1.80 

1.56 

0.66 

1.02 

0.59 

6.17 

1.75 

1.58 

0.63 

1.09 

0.59 

7.54 

1.72 

1.43 

0.64 

1.02 

0.63 

6.36 

1.68 

1.57 

0.72 

0.96 

0.68 

7.63 

1.75 

1.59 

0.68 

1.08 

0.62 

7.78 

2.19 

1.86 

0.75 

1.24 

0.72 

10.15 

1.73 

1.67 

0.64 

1.14 

0.55 

6.88 


Estime la ecuacion de regresion lineal multiple 

P'Y \xi,X2,X3,X4,X5 

= 0 o + 0 ixi + P2X2 + 133X3 + 134X1 + 0 5 x 5 - 


12.14 Veintitres estudiantes de pedagogfa tomaron 
parte en un programa de evaluacion diseiiado para me- 
dir la eficacia de los profesores y determinar que facto- 
res son importantes. Participaron 11 instructoras. La 
medicion de la respuesta fue una evaluacion cuantita- 
tiva del maestro colaborador. Las variables regresoras 
fueron las calificaciones de cuatro pruebas estandari- 
zadas entregadas a cada instructor. Los datos son los 
siguientes: 


y 

Xl 

X 2 

x 3 

X4 

410 

69 

125 

59.00 

55.66 

569 

57 

131 

31.75 

63.97 

425 

77 

141 

80.50 

45.32 

344 

81 

122 

75.00 

46.67 

324 

0 

141 

49.00 

41.21 

505 

53 

152 

49.35 

43.83 

235 

77 

141 

60.75 

41.61 

501 

76 

132 

41.25 

64.57 

400 

65 

157 

50.75 

42.41 

584 

97 

166 

32.25 

57.95 

434 

76 

141 

54.50 

57.90 


Estime la ecuacion de regresion lineal multiple 

RY \xi , X2 , 13 , X4 f 3 o + ( 3 lXl 02 X 2 + ^ 3X3 P4X4 . 


12.15 Se llevo a cabo un estudio sobre el uso de cier- 
to rodamiento y y su relacion con *1 = viscosidad del 
aceite y *2 = carga. Se obtuvieron los datos siguientes. 
[De Response Surface Methodology, Myers y Montgo- 
mery (2002).] 


y 

Xl 

X2 

y 

Xl 

X2 

193 

1.6 

851 

230 

15.5 

816 

172 

22.0 

1058 

91 

43.0 

1201 

113 

33.0 

1357 

125 

40.0 

1115 


a) Estime los parametros desconocidos de la ecuacion 
de regresion lineal multiple 

Ry \ x !, x 2 = 00 + 0 lXl + 02 X 2 - 

b ) Prediga el uso para una viscosidad del aceite de 20 
y una carga de 1200. 

12.16 Un ingeniero de una companfa de semiconduc- 
tores desea modelar la relacion entre la ganancia del 
dispositivo o hFE(j/) y tres parametros: RS del emisor 
(*1), RS de la base (*2) y RS del emisor a la base (*3). 
A continuation se muestran los datos: 

* 1 , RS x 2 , RS de X 3 , y, 

del emisor la cBase E-B-RS hFE-lM-5V 


14.62 

226.0 

7.000 

128.40 

15.63 

220.0 

3.375 

52.62 

14.62 

217.4 

6.375 

113.90 

15.00 

220.0 

6.000 

98.01 

14.50 

226.5 

7.625 

139.90 

15.25 

224.1 

6.000 

102.60 

16.12 

220.5 

3.375 

48.14 

15.13 

223.5 

6.125 

109.60 

15.50 

217.6 

5.000 

82.68 

15.13 

228.5 

6.625 

112.60 

15.50 

230.2 

5.750 

97.52 

16.12 

226.5 

3.750 

59.06 

15.13 

226.6 

6.125 

111.80 

15.63 

225.6 

5.375 

89.09 

15.38 

234.0 

8.875 

171.90 

15.50 

230.0 

4.000 

66.80 
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Xi, RS x 2 , RS de X 3 , y, 

del emisor la cBase E-B-RS hFE-lM-5V 


14.25 224.3 

14.50 240.5 

14.62 223.7 


8.000 157.10 

10.870 208.40 

7.375 133.40 


a) Haga un ajuste de regresion lineal multiple para los 
datos. 

b) Prediga hFE cuando xi = 14, £2 = 220 y £3 = 5. 
[Datos tornados de Myers y Montgomery (2002)]. 


12.4 Propiedades de los estimadores de mmimos cuadrados 

Las medias y varianzas de los estimadores bo, bi, ... , bk se obtienen con facilidad si 
se hacen ciertas suposiciones sobre los errores aleatorios ei, 62, , eu que son iden- 
ticas a las que se hicieron en el caso de la regresion lineal simple. Si se supone que 
dichos errores son independientes, con media igual a cero y varianza <r 2 , entonces 
puede demostrarse que bo, bi, ... , bk son, respectivamente, estimadores insesgados de 
los coeficientes de regresion /3o, /3i , . .., (3k ■ Ademas, las varianzas de las b se obtienen 
por medio de los elementos de la in versa de la matriz A. Observe que los elementos 
fuera de la diagonal principal de A = X'X representan sumas de productos de los 
elementos en las columnas de X; mientras que los elementos en dicha diagonal de 
A son las sumas de los cuadrados de los elementos en las columnas de X. La matriz 
inversa, A -1 , aparte del multiplicador a 2 , representa la matriz de varianza-co- 
varianza de los coeficientes de regresion estimados. Es clecir, los elementos de la 
matriz A ~ 1 cj 2 muestran, en la diagonal principal, las varianzas de bo , b\, ... , bg, y 
fuera de la diagonal principal estan las covarianzas. Por ejemplo, en un problema de 
regresion lineal multiple con k = 2, se escribirfa 


Coo 

Coi 

C02 

Cio 

C11 

C12 

C20 

C21 

C22 


con los elementos clebajo de la diagonal principal determinados por la simetrfa de la 
matriz. Entonces, se escribe 

o'b i = Cue? , i = 0 , 1 , 2 , 

o'bib, = Cov(bi,bj)= CijO 2 , i ^ j. 

Desde luego, los estimadores de las varianzas y tambien los errores estandar de ellos 
se obtienen con el reemplazo de cr 2 con el estimador apropiado obtenido de los datos 
experimentales. Un estimador no sesgado de a 2 de nuevo esta definido por la suma 
de los errores al cuadrado, que se calcula con la formula establecida en el teorema 
12.1. En el teorema se hacfan las suposiciones sobre los Ci descritas con anterioridad. 


Teorema 12.1: | Para la ecuacion de regresion lineal 

y = X/3 + e, 

I un estimador insesgado de cr 2 esta dado por el error o media cuadratica residual 


s 2 = 


SSE 


n — k — 


j, donde SSE = ^ e 2 = ^{yi - Vi) 


1=1 


i= 1 


Puede verse que para el caso de la regresion lineal simple, el teorema 12.1 repre- 
senta una generalizacion del teorema 11.1. La prueba se deja como ejercicio para 
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el lector. A1 igual que en el caso de la regresion lineal mas simple, la estimation de 
s 2 es una medida de la variation de los errores de la prediction, o residuos. En las 
secciones 12.10 y 12.11 se presentan otras inferencias importantes que tienen que 
ver con la ecuacion ajustada de regresion, con base en los valores de los residuos 
individuales e* = j/j — fji, i = 1, 2, ... , n. 

El error y la suma de los cuadrados de la regresion adoptan la misma forma y 
juegan el mismo papel que para el caso de la regresion lineal simple. De hecho, la 
identidad de la suma de cuadrados 

n n n 

^2{yi - y ) 2 = ~ y ) 2 + ~ y 

i= 1 i— 1 i=l 

se sigue cumpliendo, y se conserva la notation anterior, que es, 

SST = SSR + SSE 


con 


n 

SST = — y ) 2 = suma total de cuadrados, 

i= 1 


y 


n 

SSR = - y ) 2 = suma de cuadrados de regresion. 

i = 1 

Hay k grados de libertad asociados con SSR, y, como siempre, SST tiene n — 1 
grados de libertad. Por lo tanto, despues de restar, sse tiene n — k — 1 grados de 
libertad. Asi, nuestro estimador de a 2 de nuevo esta dado por la suma de errores al 
cuadrado dividida entre sus grados de libertad. En la salida de la mayorfa de paque- 
tes de computo de regresion multiple apareceran estas tres sumas de cuadrados. 

Analisis de varianza en la regresion multiple 

La partition de la suma total de cuadrados en sus componentes, la suma de la regre- 
sion y de los cuadrados de los errores juegan un papel importante. Puede efectuarse 
un analisis de varianza que arroje luz sobre la calidad de la ecuacion de regresion. 
Una hipotesis util, que determina si el modelo explica una cantidad significativa de 
variation, es la siguiente: 


Hq : /3i — /?2 — /?3 — ■ • • — /?fc — 0. 

El analisis de varianza implica una prueba F, mediante una tabla como la siguiente: 


Fuente 

Suma de los cuadrados 

Grados de libertad 

Media cuadratica 

F 

Regresion 

SSR 

k 

MSR = 

r MSR 

J MSE 

Error 

SSE 

n — (k + 1 ) 

MSE - n-(k+ 1) 


Total 

SST 

n — 1 
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La prueba que se relaciona es la prueba de cola superior. El rechazo de Hq 
significa que la ecuacion de regresion difiere en una constante. Es decir, al 
menos una variable regresora es importante. En las secciones que siguen se estudia 
mas el uso del analisis de varianza. 

Una utilidad adicional del error cuadratico medio (o media cuadratica residual) 
estriba en su uso en la prueba de hipotesis y en la estimation de intervalos de con- 
fianza, que se estudian en la section 12.5. Ademas, el error cuadratico medio juega 
un papel importante en las situaciones en que el cientifico busca el mejor modelo 
entre un conjunto de ellos que estan en competencia. Muchos criterios de construc- 
tion de modelos incluyen el estadistico s 2 . En la seccion 12.11 se presentan criterios 
para comparar modelos en competencia. 


12.5 Inferencias en la regresion lineal multiple 

Una de las inferencias mas utiles que se pueden hacer respecto de la calidad de la 
respuesta predicha z/o correspondiente a los valores xio, X 20 , ■ ■ ■ , Xko es el interva- 
lo de confianza sobre la respuesta media Py \ x 10 ,x 2 o, --,x ko - Estamos interesados en 
construir un intervalo de confianza sobre la respuesta media para el conjunto de 
condiciones dadas por 

x o = [1, £ 10 j x 20 , ■ ■ ■ , £fco]- 

Se aumentan en 1 las condiciones sobre las x para facilitar la notation matricial. 
Normalmente, los producen normalidad en las bj, y la media, varianzas y cova- 
rianzas aun son las mismas, como se indica en la seccion 12.4. Por lo tanto, 

k 

y = b 0 + y; bjXjo 
j = 1 

que, igualmente, esta distribuida en forma normal y es, de hecho, un estimador in- 
sesgado para la respuesta media sobre la que se intenta trazar intervalos de con- 
fianza. La varianza de y 0 , escrita con notation matricial simplemente como funcion 
de cr 2 , (X'X) -1 , y el vector de condiciones, xo, es 

cr? 0 = cr 2 Xo(X , X) _1 x 0 . 

Si se expandiera esta expresion para un caso dado, por ejemplo, para k = 2, es facil 
observar que en forma apropiada es responsable de las varianzas y covarianzas de 
las bj. Despues de sustituir a 2 con s 2 , segun se da en el teorema 12.1, puede cons- 
truirse el intervalo de confianza de (1 — a)100%, sobre PY\x 10 ,x 2 o,.- ^ko a partir del 
estadistico 

rp _ y 0 ~ Py\xio,X 2 Q,.-.,XkO 

Sv /x(5(X'X)"ix 0 ’ 

que tiene distribution t con n — k — 1 grados de libertad. 


Intervalo de 
confianza para 
Py I XiQ,X20,---,X fco 


Un intervalo de confianza de ( 1 — ct) 1 00% para la respuesta media My | Xl0 ,x 20 , . . . ,x k0 
es 

Vo - ia/2«V x ^(X 7 X) rT X^ < PY\x 10 ,X20,.:,x k 0 < VO + t a/2 S^/x<! ) (X.'X)- 1 X 0 , 
donde t a / 2 es un valor de la distribution t con n — k — 1 grados de libertad. 
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Ejemplo 12.5:1 
Solucion: 


Es frecuente que la cantidad s y / X(5(X'X) _1 Xo se denomine error estandar de 
la prediccion y, por lo general, aparece en la salida de muchos paquetes de compu- 
to para regresion. 


Con los datos del ejemplo 12.3, construya un intervalo de confianza de 95% para la 
respuesta media, cuando x\ = 3%, Xi = 8% y X 3 = 9%. 

De la ecuacion de regresion del ejemplo 12.3, el porcentaje estimado de superviven- 
cia cuando x\ = 3%, X 2 = 8% y X 3 = 9%, es: 


y = 39.1574+ (1.0161)(3) - (1.8616)(8) - (0.3433)(9) = 24.2232. 

Y luego se determina que 

1' 
3 
8 
9 

= 0.1267. 


xo(X , X) _1 x 0 = [1,3, 8, 9] 


8.0648 

-0.0826 

-0.0942 

-0.7905 


-0.0826 

0.0085 

0.0017 

0.0037 


-0.0942 

0.0017 

0.0166 

-0.0021 


-0.7905 

0.0037 

-0.0021 

0.0886 



Usando el error cuadratico medio, s 2 = 4.298 o s = 2.073, y la tabla A. 4, se observa 
que to . 025 = 2.262 para 9 grados de libertad. Por lo tanto, un intervalo de confianza 
de 95% para el porcentaje medio de supervivencia para x\ = 3%, X 2 = 8% y X 3 = 
9%, esta dado por 


24.2232 - (2. 262) (2. 073) ^0. 1267 < p Y \ 3 ,s ,9 

< 24.2232 + (2. 262) (2. 073) \/0. 1267, 


o simplemente 22,5541 < py\ 3 , 8,9 < 25.8923. 

Igual que en el caso de la regresion lineal simple, se necesita distinguir con cla- 
ridad entre el intervalo de confianza sobre la respuesta media y el intervalo de pre- 
diccion sobre una respuesta observada. Esta ultima proporciona una frontera dentro 
de la cual puede clecirse que caera una respuesta nueva observada, con el grado 
preseleccionado de certidumbre. 

Un intervalo para una sola respuesta predicha yo de nuevo se establece al consi- 
derar la diferencia y 0 — yo- Puede demostrarse que la distribucion del muestreo es 
normal con media 


Hyo-yo 


= 0 , 


y varianza 


4-yo =^[ 1 + x o(X'X)- 1 x 0 ]. 

Asi, puede construirse un intervalo de prediccion de (1 — a) 100% para un solo valor 
de prediccion yo a partir del estadlstico 

T yo - vo 

“ Sy/l + X(j(X'X)- 1 X 0 ' 

el cual tiene una distribucion t con n — k — 1 grados de libertad. 
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Intervalo de 
prediction para yo 


Ejemplo 12.6:1 

Solucion: 


Ejemplo 12.7:1 
Solucion: 


Un intervalo de (1 — a) 100% de prediction para una sola respuesta yo esta 
dado por 

Vo - t a / 2 Sy/ 1 + X(S(X'X)- :1 Xo < yo < yo + t a/ 2 Sy/l + X^X'Xj-^o, 
donde t a / 1 es un valor de la distribution t con n — k — 1 grados de libertad. 


Con los datos del ejemplo 12.3, construya un intervalo de prediction de 95% para 
una respuesta individual de porcentaje de supervivencia, cuando x\ = 3%, x 2 = 8% 
y x 3 = 9%. 

En relation con los resultados del ejemplo 12.5, encontramos que el intervalo de 
prediction de 95% para la respuesta yo, cuando X\ = 3, x 2 = 8% y x 3 = 9%, es 

24.2232 - (2. 262) (2. 073) Vi- 1267 < y 0 < 24.2232 

+ (2. 262) (2. 073) Vl. 1267, 

que se reduce a 19.2459 < yo < 29.2005. Observe que, como se esperaba, el intervalo 
de prediction es considerablemente mas ancho que el intervalo de confianza para el 
porcentaje medio de supervivencia del ejemplo 12.5. 

El conocimiento de las distribuciones de los estimadores de los coeficientes indi- 
viduales permite al experimentador construir intervalos de confianza para los coefi- 
cientes y, de ese modo, hacer pruebas de hipotesis sobre ellos. Recuerde que en la 
section 12.4 se vio que las bj (j = 0, 1, 2, ... , k) estan distribuidas en forma normal 
con media (3j y varianza CjjO 2 . Por lo que se puede usar el estadfstico 

^ _ bj — f3jp 

s VcJ] 


con n — k — 1 grados de libertad para probar la hipotesis y construir intervalos de 
confianza sobre /3j. Por ejemplo, si se desea probar: 

Ho'- f3j = fijOi 
Hu / 3 , ^ PjOi 

se calcula el estadfstico t anterior y no se rechaza H 0 si —t a / 2 < t < t a / 2 , donde t a / 2 
tiene n — k — 1 grados de libertad. 


Para el modelo del ejemplo 12.3, pruebe la hipotesis de que (3 2 = —2.5 contra la 
alternativa de que j3 2 > —2.5, con un nivel de significancia de 0.05. 

Ho- /?2 = —2.5, 

Hp. (d 2 > -2.5. 

Calculos: 


t 

P 


b 2 - fop _ -1.8616 + 2.5 
sy/c^ ~ 2.073V0.0166 
P(T > 2.390) = 0.04. 


Decision: Rechace Ho y concluya que f3 2 > —2.5. 


J 
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Pruebas T individuales para comparar variables 

La prueba T que se utiliza con mas frecuencia en la regresion multiple es aquella que 
prueba la importancia de los coeficientes individuales (es decir, Hq : (3j = 0 contra 
la alternativa Hq : (3j 0). Es frecuente que estas pruebas contribuyan a lo que se 

denomina comparacion de variables, con lo cual el analista intenta llegar al mo- 
delo mas util (la selection de que regresor utilizar). Aqui debe destacar en que si se 
encuentra que un coeficiente es insignificante (es decir, no se rechaza la hipotesis 
Ho : /3j = 0), la conclusion que se obtiene es que la variable es insignificante (expli- 
ca una cantidad insignificante de la variation de y ) , en la presencia de los demas 
regresores del modelo. Se profundizara en este punto mas adelante. 


Salida anotada para los datos del ejemplo 12.3 

La figura 12.1 muestra una salida anotada por computadora para el ajuste de regre- 
sion lineal multiple de los datos del ejemplo 12.3. Se empleo el paquete SAS. 

Observe los estimadores de los parametros del modelo, los errores estandar y los 
estadfsticos t que aparecen en la salida. Los errores estandar se calculan a partir de 
las rafces cuadradas de los elementos de la diagonal (X'X) _1 s 2 . En dicha ilustracion, 
la variable X 3 es insignificante en presencia de X\ y X 2 con base en la prueba t y 
el valor P correspondiente = 0.5916. Los terminos Clm y cli son intervalos de con- 
fianza sobre la respuesta media y los lfmites de la prediction sobre una observation 
individual, respectivamente. En el analisis de varianza la prueba / indica que queda 
explicada una cantidad significativa de variabilidad. Como ejemplo de las interpre- 
taciones de clm y cli , considere la observation 10. Con una observation de 25.2 y 
un valor predicho de 26.068 se tiene una confianza de 95% de que la respuesta media 
estara entre 24.502 y 27.633, y de que una observation nueva caera entre 21.124 y 
31.011 con una probabilidad de 0.95. El valor R 2 de 0.9117 implica que el modelo 
explica el 91.17% de la variabilidad de la respuesta. En la section 12.6 se analiza mas 
la R 2 . 


Mas sobre el analisis de varianza en la regresion multiple (opcional) 

En la section 12.4 se estudio brevemente la partition de la suma total de los cuadra- 

n 

dos ( Vi—y ) 2 e n sus dos componentes, el modelo de regresion y la suma de errores 

i—1 

al cuadrado (que se ilustran en la figura 12.1). El analisis de varianza lleva a la 
prueba de 


Hq : /3i — /?2 — /?3 — • • • — /?fc — t). 

El rechazo de la hipotesis nula tiene una interpretation importante para el cientffico 
o el ingeniero. (Para aquellos que esten interesados en un tratamiento mas profundo 
de este tema por medio de matrices, es util estudiar el desarrollo de las sumas de los 
cuadrados que se usan en el anova.) 

En primer lugar, hay que recorclar la definition de y, X, y (3 que se dio en la 
section 12.3, asf como la de b, el vector de los estimadores de mfnimos cuadrados 
dados por 


b = (X , X) _1 X / y. 
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Sum of 

Mean 



Source 


DF Squares 

Square F Value 

Pr > F 


Model 


3 399.45437 

133.15146 30.98 

<.0001 


Error 


9 38.67640 

4.29738 



Corrected 

Total 

12 438.13077 




Root MSE 


2.07301 R-Square 0.9117 



Dependent 

Mean 

29.03846 Adj 

R-Sq 0.8823 



Coeff Var 


7.13885 






Parameter 

Standard 



Variable 

DF 

Estimate 

Error t 

Value 

Pr > 1 1 1 

Intercept 

1 

39.15735 

5.88706 

6.65 

<.0001 

xl 

1 

1.01610 

0.19090 

5.32 

0.0005 

x2 

1 

-1.86165 

0.26733 

-6.96 

<.0001 

x3 

1 

-0.34326 

0.61705 

-0.56 

0.5916 


Obs 

Dependent 

Variable 

Predicted 

Value 

Std Error 

Mean Predict 

95"/. CL 

Mean 

957. CL 

Predict 

Residual 

1 

25.5000 

27.3514 

1.4152 

24.1500 

30.5528 

21.6734 

33.0294 

-1.8514 

2 

31.2000 

32.2623 

0.7846 

30.4875 

34.0371 

27.2482 

37.2764 

-1.0623 

3 

25.9000 

27.3495 

1.3588 

24.2757 

30.4234 

21.7425 

32.9566 

-1.4495 

4 

38.4000 

38.3096 

1.2818 

35.4099 

41.2093 

32.7960 

43.8232 

0.0904 

5 

18.4000 

15.5447 

1.5789 

11.9730 

19.1165 

9.6499 

21.4395 

2.8553 

6 

26.7000 

26.1081 

1.0358 

23.7649 

28.4512 

20.8658 

31.3503 

0.5919 

7 

26.4000 

28.2532 

0.8094 

26.4222 

30.0841 

23.2189 

33.2874 

-1.8532 

8 

25.9000 

26.2219 

0.9732 

24.0204 

28.4233 

21.0414 

31.4023 

-0.3219 

9 

32.0000 

32.0882 

0.7828 

30.3175 

33.8589 

27.0755 

37.1008 

-0.0882 

10 

25.2000 

26.0676 

0.6919 

24.5024 

27.6329 

21.1238 

31.0114 

-0.8676 

11 

39.7000 

37.2524 

1.3070 

34.2957 

40.2090 

31.7086 

42.7961 

2.4476 

12 

35.7000 

32.4879 

1.4648 

29.1743 

35.8015 

26.7459 

38.2300 

3.2121 

13 

26.5000 

28.2032 

0.9841 

25.9771 

30 . 4294 

23.0122 

33.3943 

-1.7032 


Figura 12.1: Salida de sas para los datos del ejemplo 12.3. 


Una particion de la suma de cuadrados no corregida, 



en dos componentes esta dada por 


y'y = b'X'y + (y'y - b'X'y) 

= y / X(X , X)" 1 X / y + [y'y - y'X(X , X)“ 1 X / y]. 


El segundo termino (entre corchetes) en el lado derecho es tan solo la suma de erro- 

n 

res al cuadrado XI (Vi ~ Vi) 2 ■ El lector deberi'a observar que una expresion alterna- 

i—1 

tiva para la suma de errores al cuadrado es 


sse = y , [I n -X(X , X)- 1 X']y. 


12.5 Inferencias en la regresion lineal multiple 
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El termino y'X(X'X)” 1 X'y se denomina la suma de cuadrados de la regre- 

n 

sion. Sin embargo, no se trata de la expresion E (?A — V) que se uso para probar la 

i= 1 

“importancia” de los terminos b\, • • • ■, bk, sino de 

n 

y , X(X'X)- 1 X'y = E^ 2 . 

i= 1 

que es la suma de cuadrados de la regresion no corregida para la media. Como tal, 
solo puede usarse para probar si la “ecuacion de regresion difiere significativamente 
de cero”. Es decir, 


H 0 : /3o — /3i — — • • • — /3fc — 0. 

En general, esto no es tan importante como probar 

Ho-. Pi = 02 = ■ • ■ = Pk = 0, 

dado que esto plantea que la respuesta media es una constante, no necesariamente 
vale cero. 


Grados de libertad 

Asf, la particion de las sumas de los cuadrados y los grados de libertad se reduce a 


Fuente 

Suma de cuadrados 

g-i- 

Regresion 

n 

E yf = y , x(x , x) _1 x' y 

i= 1 

k + 1 

Error 

n 

E (Vi - Vi) 2 = y'[i n - X(X'X)- 1 X']y 

i=l 

n — ( k + 1) 

Total 

n 

E y 2 = y'y 

n 


i=l 



Hipotesis de interes 

Ahora, por supuesto, la hipotesis de interes para un anova debe eliminar el papel 
de la intersection segun se describio en forma previa. Si se habla estrictamente, si 
Ho ■ 0 i = 02 =■■ • = 0 k = 0, entonces la recta de regresion estimada es tan solo 
'iji = y. Como resultado, en realidad se busca evidencia de que la ecuacion de re- 
gresion “no es una constante”. Entonces, las sumas total y de los cuadrados de la 
regresion cleben “corregirse para la media” . 

Como resultado, tenemos 

- y ) 2 = - y ) 2 + J2(yi - 

i = 1 i= 1 i= 1 

En notacion matricial es simplemente 

y'[l„ - i(i , i) - 1 i , ]y =y'[X(X'X)- 1 X' - 

+ y / [I n -X(X , X)- 1 X']y 
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En esta expresion, el 1 solo es un vector de n unos. Como resultado, simplemente 
restamos 


y , l(l'l)“ 1 l , y 


1 

n 



2 


de y'y y de y'X(X'X)- 1 X'y (es decir, corrigiendo las sumas total y de los cuadra- 
dos de la regresion para la media). 

Por ultimo, la partition apropiada de las sumas de los cuadrados con grados de 
libertad es como sigue: 


Fuente 

Suma de cuadrados 

g-1- 

Regresion 

E (Hi ~ V ) 2 = y'[X(X'xr ^ - lOL'ir^y 

2 = 1 

k 

Error 

n 

E (yi - Vi) 2 = y'[In - X(X'X)- 1 X']y 

2 = 1 

n — ( k + 1) 

Total 

n 

E(y* - vf = y'Pn - i(i'i) _1 i']y 

2 = 1 

n — 1 


Esta es la tabla anova que aparece en la salida por computadora de la figura 
12.1. Es frecuente denominar a la expresion y' [l(l'l) _1 l']y como la suma de cua- 
drados de la regresion asociada con la media, y a ella se asigna 1 grado de 
libertad. 


Ej ercicios 

12.17 Para los datos del ejercicio 12.2 de la pagina 

452, estime cr 2 . 

12.18 Para los datos del ejercicio 12.3 de la pagina 

453, estime a 2 . 

12.19 Para los datos del ejercicio 12.9 de la pagina 

454, estime cr 2 . 

12.20 Obtenga estimadores de las varianzas y la co- 
varianza de los estimadores b \ y b -2 del ejercicio 12.2 de 
la pagina 454. 

12.21 En relation con el ejercicio 12.9 de la pagina 
454, encuentre el estimador de 

a) oi 2 , 

b) Cov(bi , 6 4 ). 

12.22 Utilizando los datos del ejercicio 12.2 de la pa- 
gina 452, y el estimador a 2 del ejercicio 12.17, calcule 
intervalos de confianza de 95% para la respuesta pre- 
dicha y la respuesta media cuando x\ = 900 y *2 = 
1 . 00 . 

12.23 Para el ejercicio 12.8 de la pagina 454, constru- 
ya un intervalo de confianza de 90% para la resistencia 


media a la compresion cuando la concentration es x = 
19.5 y se utiliza un modelo cuadratico. 

12.24 Con los datos del ejercicio 12.9 de la pagina 
454 y el estimador de cr 2 del ejercicio 12.19, calcule 
intervalos de confianza de 95% para la respuesta pre- 
dicha y la respuesta media cuando x\ = 75, *2 = 24, 
*3 = 90 y X 4 = 98. 

12.25 Para el modelo del ejercicio 12.7 de la pagina 
453, pruebe la hipotesis de que /?2 = 0, con un nivel 
de significancia de 0.05, contra la alternativa de que 

o. 

12.26 Para el modelo del ejercicio 12.2 de la pagina 
452, pruebe la hipotesis de que /3i = 0, con un nivel 
de significancia de 0.05, contra la alternativa de que 
ft^O. 

12.27 Para el modelo del ejercicio 12.3 de la pagi- 

na 453, pruebe la hipotesis de que /3i = 2 contra la 
alternativa de que /3i 2. En su conclusion, use un 

valor P. 

12.28 Considere los datos siguientes, que se listan en 
el ejercicio 12.15 de la pagina 455. 
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x\ (viscosidad 

y (uso) del aceite) X 2 (carga) 


193 

1.6 

851 

230 

15.5 

816 

172 

22.0 

1058 

91 

43.0 

1201 

113 

33.0 

1357 

125 

40.0 

1115 


a) Estime cr 2 usando regresion multiple de y sobre x\y 
X2- 

b ) Calcule valores pronosticados, un intervalo de con- 
fianza de 95% para la media del uso, y un intervalo 
de prediction de 95% para el uso observado, si xi = 
20 y X 2 = 1000. 


12.29 Con los datos del ejercicio 12.28, y con un nivel 
de 0.05, pruebe: 

a) Ho: (3\ = 0 contra Hp (3 1 =f= 0; 

b ) Ho: /?2 = 0 contra Hp ^2 4 1 0. 

c) ^Tiene usted alguna razon para creer que deba cam- 
biarse el modelo del ejercicio 12.28? ^Por que? 

12.30 Con los datos del ejercicio 12.16 de la pagina 455, 
o) Estime <r 2 usando regresion multiple de y sobre xp 

X 2 y * 3 ; 

b) Calcule un intervalo de prediction de 95% para la 
ganancia del dispositivo con tres regresores en xi = 
15.0, X 2 = 220.0 y X 3 = 6.0. 


12.6 Seleccion de un modelo ajustado mediante la prueba 
de hipotesis 


En muchas situaciones de regresion, los coeficientes individuates revisten importan- 
cia para el experimentador. Por ejemplo, en una aplicacion de economfa, /%, /? 2 , • ■ • 
podrlan tener algun significado especifico, por lo que los intervalos de confianza y 
las pruebas de hipotesis sobre dichos parametros tendrian interes para el economis- 
ta. Sin embargo, considere una situacion de quimica industrial en la que el modelo 
propuesto supone que la reaccion que ocurre es linealmente dependiente de la tempe- 
ratura y concentration de la reaccion de cierto catalizador. Es probable que se sepa 
que este no es el verdadero modelo, sino una aproximacion adecuada; de manera que 
el interes no estribarla en los parametros individuates, sino en la capacidad de la fun- 
cion en su conjunto para predecir la respuesta verdadera en el rango de las variables 
consideradas. Por lo tanto, en esta situacion, se pondrfa mas enfasis en los interva- 
los de confianza cr?, sobre la respuesta media, y otros parecidos, y se disminuiria el 
interes en las inferencias sobre los parametros individuates. 

El experimentador que utiliza analisis de regresion tambien esta interesado en 
la elimination de variables cuando la situacion impone que, ademas de llegar a una 
ecuacion de pronostico funcional, clebe encontrar la “mejor regresion” que imp li que 
solo a variables que son predictores utiles. Se dispone de cierto numero de programas 
de computo que llegan en secuencia a la denominada mejor ecuacion de regresion, se- 
gun ciertos criterios. En la section 12.9 estudiaremos esto con mayor profundidad. 

Un criterio que es comun utilizar para ilustrar lo adecuado de un modelo ajusta- 
do de regresion es el coeficiente de determination multiple: 


R 2 


SSR 

SST 


Z(&-y ) 2 


i= 1 


n 


E ( Vi - y ) 2 


SSE 

= 1 . 

SST 


Note que esta se parece a la description de R 2 que se hizo en el capitulo 11. En este 
punto, la explication podria ser mas clara toda vez que ahora nos centramos en SSR 
como la variabilidad explicada. La cantidad R 2 tan solo indica que proporcion de 
la variation total de la respuesta Y es explicada por el modelo ajustado. Es frecuente 
que un experimentador informe R 2 x 100% e interprete el resultado como el por- 
centaje de variacion explicado con el modelo propuesto. La raiz cuadrada de R 2 se 
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denomina coeficiente de correlacion multiple entre Y y el conjunto Xi, x-j, . . . , 
Xk- En el ejemplo 12.3, el valor de R 2 que indica la proportion de variation explicada 
por las tres variables independientes x\, X 2 y X 3 se encuentra mediante 


n SSR 

R 2 = 

SST 


399.45 

438.13 


0.9117. 


lo cual significa que 91.17% de la variacion en porcentaje de supervivencia queda 
explicada por el modelo de regresion lineal. 

La suma de cuadrados de la regresion puede emplearse para obtener algun indi- 
cio acerca de si el modelo es o no una explication adecuada de la situation verclade- 
ra. Podemos probar la hipotesis // n de que la regresion no es significativa con 
unicamente plantear la razon 


SSR/k 


SSR/k 


ssE/(n - k - 1) 


y rechazar Hq con el nivel de significancia de a cuando / > f a (k, n — k — 1). Para 
los datos del ejemplo 12.3, se obtiene 


/ 


399.45/3 

4.298 


30.98. 


De la salida que aparece en la figura 12.1, el valor P es menor que 0.0001. Esto no 
debe malinterpretarse. Aunque indica que la regresion explicada por el modelo es 
significativa, no descarta la posibilidad de que 


1. El modelo de regresion lineal en este conjunto de x no sea el unico que puede 
usarse para explicar los datos; en efecto, quizas haya otros modelos con trans- 
formaciones sobre las x que arrojen un valor mayor del estadistico F. 

2 . El modelo hubiera podido ser mas eficaz con la inclusion de otras variables, 
ademas de x\, X 2 y £ 3 , o quiza con la elimination de una o mas de las variables 
del modelo, por ejemplo x$, que muestre un valor de P = 0.5916. 


El lector deberia recordar el analisis que se hizo en la section 11.5 sobre las 
desventajas de utilizar R 2 como criterio para comparar modelos en competencia. Es 
claro que dichas desventajas son relevantes en la regresion lineal multiple. En reali- 
dad, los riesgos de su empleo en la regresion multiple son aun may ores clebido a que 
es muy grande la tentacion de sobreajustar. Siempre debe recordarse que el hecho de 
que un valor de R 2 w 1.0 puede obtenerse a expensas de los grados de libertad del 
error cuando se emplea un exceso de terminos en el modelo. Sin embargo, un valor 
de R 2 = 1, que clescriba un modelo con ajuste casi perfecto, no siempre genera un 
modelo que haga buenas predicciones. 


El coeficiente de determinacion ajustado ( R 2 ajustado) 

En el capitulo 11 se presentan varias figuras que muestran salidas por computadora, 
tanto de sas como de minitab , donde aparece un estadistico llamado R 2 ajustado , 
o coeficiente de determinacion ajustado. R 2 ajustado es una variacion de R 2 que pro- 
porciona un ajuste para los grados de libertad. El coeficiente de determinacion, 
segun se definio en la pagina 407, no puede disminuir conforme se agregan terminos 
al modelo. En otras palabras, R 2 no disminuye conforme se reducen los grados de 
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libertad del error n — k — 1 , y el ultimo resultado se produce por un incremento 
de k, el numero de terminos en el modelo. R 2 ajustado se calcula con la division de 
SSE y ssr entre sus valores respectivos de grados de libertad (es decir, R 2 ajustado 
es como sigue). 


R 2 ajustado 


sse/(ji - k - 1 ) 
ssT/(n - 1 ) 


Para ilustrar el uso de R 2 j u se revisara el ejemplo 12.3. 


^Como la remocion de x 3 afecta R 2 y R\ j u ? 

La prueba t (o la F correspondiente) para X3, el porcentaje ponderado del ingre- 
diente 3, sugiere con claridad que un modelo mas sencillo que solo implique x\ y Xi 
bien podrta ser una mejorta. En otras palabras, el modelo completo con todos los 
regresores podrta estar sobreajustado. Por supuesto que es de interes investigar R 2 
y -Raju tanto para el modelo completo (aq, X2 y X3) como para el restringido (aq, 
X2). Por la figura 12.1, ya sabemos que -R? 0 mpieto = 0.9117. La SSE para el modelo 
reducido es 40.01, por lo que i?? e strin g ido = 1 — = 0 . 9087 . Ast, con X 3 dentro 

del modelo se explica mas variabilidad. No obstante, como ya se dijo, esto ocurrirta 
aun si el modelo estuviera sobreajustado. Ahora, por supuesto, R 2 j u esta disenado 
para proporcionar un estadtstico que castigue un modelo sobreajustado, de manera 
que podrtamos esperar que se favorezca al modelo restringido. Entonces, para el 
modelo completo 


38.6764/9 _ 4.2974 

438.1308/12 “ ~~ 36.5109 


0.8823, 


mientras que para el modelo reducido (elimination de X3) 


40.01/10 _ i 4.001 

438.1308/12 “ ~~ 36.5109 


0.8904. 


Ast, -Raju en verdad favorece el modelo restringido y, por ello, confirma la evidencia 
producida por las pruebas t y F que sugieren que el modelo reducido es preferible 
sobre el que contiene los tres regresores. El lector quizas espere que otros estadts- 
ticos sugieran el rechazo del modelo sobreajustado. Vease el ejercicio 12.40 de la 
pagina 474. 


Pruebas sobre subconjuntos y coeficientes individuales 

Agregar cualquier variable unica a un sistema de regresion incrementara la suma 
de cuadrados de la regresion , y con ello se reducira la suma de errores al cuadrado. 
En consecuencia, se debe decidir si el incremento en la regresion es suficiente para 
garantizar su uso en el modelo. Como es de esperarse, el empleo de variables sin 
importancia reducirta la eficacia de la ecuacion de prediction por el incremento de la 
variable de la respuesta estimada. Profundizaremos mas en este punto al considerar 
la importancia de X 3 en el ejemplo 12.3. Inicialmente, se prueba 


H 0 : Ps = 0 , 

Hp. p 3 ± 0 
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usando la distribution t con 9 grados de libertad. Se tiene 


63-O 

Sy/C33 


-0.3433 
2.073 v/0.0886 


-0.556, 


que indica que P 3 no difiere en forma significativa de cero y, por ello, bien se podria 
tener la justification para eliminar x 3 del modelo. Suponga que se considera la regre- 
sion de Y sobre el conjunto (aq, aq), las ecuaciones normales de mmimos cuadrados 
ahora se reducen a 


13 59.43 81.82 


bo 


377.50 

59.43 394.7255 360.6621 


b\ 

= 

1877.5670 

81.82 360.6621 576.7264 


b 2 _ 


2246.6610 


Los coeficientes de regresion estimados para este modelo reducido son 
b 0 = 36.094, bi = 1.031, b 2 = -1.870, 
y la suma de cuadrados de la regresion resultante con 2 grados de libertad es 

R(P i,/3 2 ) = 398.12. 

Aqui se utiliza la notation R(Pi, p 2 ) para indicar la suma de cuadrados de la regre- 
sion del modelo restringido, y no debe confundirse con ssr , la suma de cuadrados de 
la regresion del modelo original con 3 grados de libertad. Entonces, la nueva suma 
de errores al cuadrado es 

SST - RiPufa) = 438.13 - 398.12 = 40.01, 

y el error cuadratico medio resultante con 10 grados de libertad es 


^Una prueba T de variable unica tiene una contraparte FI 

La cantidad de variation en la respuesta, el porcentaje de supervivencia, que se 
atribuye a £3, porcentaje de peso del tercer aditivo, en presencia de las variables x\ 
y x 2 , es 

R(P 3 \PuP 2 ) = ssr - R(P i,/3 2 ) = 399.45 - 398.12 = 1.33, 


que representa una proportion pequena de toda la variation de la regresion. Esta 
cantidad de regresion agregada es estadfsticamente insignificante, como lo indica la 
prueba previa sobre P 3 . Una prueba equivalente implica la formation de la razon 

, R(p3\pi,p 2 ) 1.33 nonn 

f ^ - 4298 - °' 309 ’ 

que es un valor de la distribution F con 1 y 9 grados de libertad. Recuerde que la 
relation basica entre la distribucion t con v grados de libertad y la distribucion F 
con lyv grados de libertad es 


t 2 = /(M) 
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y se observa que el valor / de 0.309 en efecto es el cuadrado del valor t de —0.56. 

Para generalizar los conceptos anteriores, podemos evaluar el funcionamiento de 
una variable independiente Xi en el modelo general de regresion lineal multiple 

l^Y\xi,x2,...,xk A) 4” Pi-^i 4” ' ' ' 4” Pk%k 

con la observation de la cantidad de regresion atribuida a a :» sobre y por arriba de 
aquella atribuida a las demas variables, es decir, la regresion sobre Xi ajustada 
para las demas variables. Esta se calcula restando de SSR la suma de cuadrados de 
la regresion para un modelo del que se descarto a;,. Por ejemplo, se dice que Xi se 
evalua calculando 


R{Pi\P 2 , Ps, ■ ■ ■ , Pk) = ssr - R(/3 2 ,P3, ■ ■ ■ ,Pk), 


donde R{(3 2 , P 3 , . . . , fa) es la suma de cuadrados de la regresion con fax\ retirados 
del modelo. Para probar la hipotesis 


H 0 : Pi = 0, 
Hp. pi ± 0, 


se calcula 


_ R{fa\fa,fa, . . . ,Pk) 

J o ; 

y se compara con f a (l, n — k —1). 

En forma similar, se puede probar para la significancia de un conjunto de las 
variables. Por ejemplo, para investigar simultaneamente la importancia de incluir X\ 
y x 2 en el modelo, se prueba la hipotesis 

Ho'- Pi = P 2 = 0, 

Hp Pi y P 2 no son cero las dos, 


calculando 


[R(fa,fa\fa,p 4 ,...,p k )\/2 [ssR-R(fa,p 4 ,...,p k )\/2 

1 s 2 s 2 

y comparando con /„( 2, n — k — 1). El mimero de grados de libertad asociados con 
el numerador, en este caso 2, es igual al mimero de variables en el conjunto que se 
investiga. 


12.7 Caso especial de ortogonalidad (opcional) 

Antes de nuestro desarrollo original del problema general de regresion lineal, se hizo 
la suposicion de que las variables independientes eran medidas sin error y con fre- 
cuencia estaban controladas por el experimentador. A menudo ocurren como resul- 
tado de un experimento disenado con laboriosidad. De hecho, se puede incrementar 
la eficacia de la ecuacion de prediction resultante utilizando un plan de experimen- 
tation adecuado. 
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Suponga el lector que otra vez consideramos la matriz X segun se definio en la 
seccion 12.3. Podemos rescribirla para que se lea como 

X = [l,xi,x 2 , • • . ,x k ], 

donde 1 representa una columna de unos y xj es un vector columna que representa 
los niveles de x r Si 


XpX q = 0, para p ^ q, 

se dice que las variables x p y x q son ortogonales entre si. Hay ciertas ventajas evi- 
dentes en tener una situacion por completo ortogonal, en la cual XpX q = 0 para toda 
posible p y q, p q y, ademas, 


5>« = o, i = 

2= 1 

la X'X resultante es una matriz diagonal, y las ecuaciones normales de la seccion 
12.3 se reducen a 


nb 0 


h i 

2=1 


n 

i= 1 
n 

^ ^ X 1 iVii 
i= 1 


n n 

h^xti = ^2x k iyi. 

i= 1 2=1 


Una ventaja importante es que es facil hacer la partition de SSR en componentes 
de un solo grado de libertad, cada uno de los cuales corresponde a la cantidad de 
variation de Y debida a una variable controlada establecida. En la situacion orto- 
gonal, se escribe 

n n 

SSR = - y ) 2 = ^2( b o + hxii H b b k x ki - bo) 2 

2=1 2=1 

n n n 

= b lJ2 X ^ +b ^'l2 X ^ + '" +b kYl X ki 
2 = 1 2 = 1 2 = 1 

= R{fa) + Rifii) + • • • + R(f3 k ). 

La cantidad R(@i) es la cantidad de la suma de cuadrados de la regresion asociada 
con un modelo que implica una sola variable independiente x- k 

Para probar simultaneamente la significancia de un conjunto de m variables en 
una situacion ortogonal, la suma de cuadrados de la regresion se convierte en 


R(0 1) /?2> • • • > /3m|/3m+l) /3m+2, • • • , Pk) — R{@l) + Rifa) + ' ' ' + i?(/3 m ), 
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y asi se tiene la simplification mayor 


R(Pi\p2,P 3 ,...,Pk) = R (Pi) 


cuando se evalua una sola variable independiente. Por lo tanto, la contribution de 
una variable dada o conjunto de variables se encuentra en esencia al ignorar las 
demas variables del modelo. Las evaluaciones independientes del beneficio de las va- 
riables individuales se llevan a cabo usando las tecnicas de analisis de varianza que 
se dan en la tabla 12.4. La variation total en la respuesta esta en forma de la par- 
tition de componentes de un solo grado de libertad mas el termino del error con 
n — k — 1 grados de libertad. Cada valor f calculado se utiliza para probar una de 
las hipotesis 


H 0 : Pi = 0\ 
Hr- (3^0 J 


i = 1 , 2 , 


al compararlo con el punto cri'tico f a ( 1, n — k — 1) o con la sola interpretation del 
valor P calculado a partir de la distribution /. 


Tabla 12.4: Analisis de varianza para variables ortogonales 


Fuente de 

Suma de 

Grados de 

Media 

f 

variacion 

cuadrados 

libertad 

cuadratica 

calculada 

pi 

R (Pi) = b i E x ii 

t=l 

1 

R (Pi) 

R{P 1 ) 

s 2 

P 2 

n 

r {P2) = b\ E x li 

i=l 

1 

R {P2) 

R{02) 

S 2 

Pk 

n 

R (Pk ) = b 2 k £ x 2 ki 

1 

R (Pk) 

R{Pk) 

s 2 

Error 

i= 1 

SSE 

n — k — 1 

„2 SSE 

b n—k—1 


Total 

SST = Syy 

n — 1 




Ejemplo 12.8:1 Suponga que un cientffico recaba datos experiment ales del radio de un grano pro- 
pulsor Y como funcion de la temperatura del polvo x\, la tasa de extrusion X 2 y la 
temperatura del molde X 3 . Ajuste un modelo de regresion lineal para predecir el 
radio del grano y determine la eficacia de cada variable que interviene en el modelo. 
Los datos se presentan en la tabla 12.5. 

Solucion: Observe que cada variable esta controlada en clos niveles, y que el experimento re- 
presenta cada una de las ocho combinaciones posibles. Por conveniencia, los datos 
sobre las variables independientes estan codificados mediante las siguientes formulas: 


Xi 


x 2 


temperatura del polvo — 170 
20 

tasa de extrusion — 18 

6 ’ 

temperatura del molde — 235 


£3 = 


15 
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Tabla 12.5: Datos para el ejemplo 12.8 


Radio 
del grano 

Temperatura 
del polvo 

Tasa de 
extrusion 

Temperatura 
del molde 

82 

150 

(-1) 

12 

(-1) 

220 

(-1) 

93 

190 

(+1) 

12 

(-1) 

220 

(-1) 

114 

150 

(-1) 

24 

(+1) 

220 

(-1) 

124 

150 

(-1) 

12 

(-1) 

250 

(+1) 

111 

190 

(+1) 

24 

(+1) 

220 

(-1) 

129 

190 

(+1) 

12 

(-1) 

250 

(+1) 

157 

150 

(-1) 

24 

(+1) 

250 

(+1) 

164 

190 

(+1) 

24 

(+1) 

250 

(+1) 


Los niveles resultantes de x\, x -2 y £3 toman los valores —1 y +1, segun se indica 
en la tabla de los datos. Este diseno experimental permite la ortogonalidad que se 
ilustra aqui. En el capitulo 15 se analiza un tratamiento mas completo de este tipo 
de diseno experimental. La matriz X es 

'1 -1 -1 -1 " 

1 1 - 1-1 
1-1 1-1 


11-11 

1-111 

1111 


y las condiciones de ortogonalidad se verifican con facilidad. Ahora, pueden calcu- 
late los coeficientes 

1 ^ ^ 20 

^0 = g ^2vi = 121.75, &i = -^ xuyi = — = 2.5, 

i—1 i—1 


b 2 


E x 2iVi 


1=1 


118 


14.75, 


8 


iVi 



174 

~8~ 


21.75, 


de manera que, en terminos de las variables codificadas, la ecuacion de prediction es 
y = 121.75 + 2.5 xi + 14.75^2 + 21 . 75 x 3 . 

La tabla 12.6, del analisis de varianza, presenta las contribuciones independientes 
de cada variable para SSR. Los resultados, al compararse con /o.os(l-4) para el punto 
critico de 7.71, indican que Xi no contribuye de manera significativa con el nivel 
de 0.05; mientras que las variables X 2 y X 3 si son significativas. En este ejemplo, 
el estimador para cr 1 2 es 23.1250. Igual que en el caso para una sola variable inde- 
pendiente, se desprende que dicho estimador no unicamente contiene variation por 
el error experimental, a menos que el modelo postulado sea correcto. De otro modo, el 
estimador estara “contaminado” por la falta de ajuste, ademas del error puro y la 
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Tabla 12.6: Analisis de 

varianza para 

los datos del radio de los 

granos 

Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Media 

cuadratica 

/ 

calculada 

Valor P 

0 i 

(2.5) 2 (8) = 50 

1 

50 

2.16 

0.2156 

02 

(14.75) 2 (8) = 1740.50 

1 

1740.50 

75.26 

0.0010 

03 

(21.75) 2 (8) = 3784.50 

1 

3784.50 

163.65 

0.0002 

Error 

92.5 

4 

23.1250 



Total 

5667.50 

7 





falta de ajuste solo puede separarse si se obtienen observaciones experimentales 
multiples en las distintas combinaciones (aq, X 2 , X 3 ). 

Como X\ no es significativa, puede eliminarse sin mas del modelo y no se altera- 
ran los efectos de las otras variables. Observe que tanto X 2 como X 3 tienen un efecto 
sobre el radio del grano de manera positiva, con X 3 como el factor mas importante 
con base en lo pequeno de su valor P. 


Ej ercicios 


12.31 Calcule e interprete el coeficiente de determi- 
nation multiple para las variables del ejercicio 12.3 de 
la pagina 453. 

12.32 Pruebe si la regresion explicada por el modelo 
del ejercicio 12.3 de la pagina 453 es significativa con el 
nivel de significancia de 0 . 01 . 

12.33 Pruebe si la regresion explicada por el modelo 
del ejercicio 12.9 de la pagina 454 es significativa con el 
nivel de significancia de 0 . 01 . 


y xi x 2 

7.6 -1 -1 

8.4 1 -1 

9.2 -1 1 

10.3 -1 -1 

9.8 1 1 

11.1 1 -1 

10.2 -1 1 

12.6 1 1 


x 3 

-1 

-1 

-1 

1 

-1 

1 

1 

1 


a) Con las variables codificadas, estime la ecuacion de 
regresion lineal multiple 


12.34 Para el modelo del ejercicio 12.9 de la pagina 
454, pruebe la lripotesis 

Ho' Pi = 02 = 0 , 

Hi' 0 i y 02 no son cero las dos. 


y-Y\x lt x 2 ,x 3 = 00 + 01 X 1 + 02X2 + 03X3- 

b) Partition SSR , suma de cuadrados de la regresion, en 
tres componentes de un solo grado de libertad atri- 
buibles a xi, X 2 y * 3 , respectivamente. Construya 
una tabla de analisis de varianza, con pruebas de 
significancia sobre cada variable. 


12.35 Repita el ejercicio 12.17 de la pagina 464 usan- 
do el estadfstico F. 

12.36 Se condujo un pequeno experimento para ajus- 
tar una ecuacion de regresion multiple que relaciona 
el producto y con la temperatura xi, el tiempo de re- 
action X 2 y la concentration de uno de los reactivos 
X 3 . Se eligieron dos niveles de cada variable y se re- 
gistraron mediciones correspondientes a las variables 
independientes codificadas, como sigue: 


12.37 Considere los datos de energi'a electrica del 
ejercicio 12.9 de la pagina 454. Pruebe H 0 : 0i = 0 2 = 0, 
utilizando R(0i, 02\03, 04) ■ Proporcione un valor P y 
saque conclusiones. 

12.38 Considere los datos para el ejercicio 12.36. 
Calcule lo siguiente: 

R(0i\0o), R(0i\0o, 02, 03), 

R(0 2\0O,0l), R{02\0O, 01, 03), 

R(03\0O, 01, 02)- 
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Haga comentarios. 

12.39 Considere los datos del ejercicio 11.63 de la 
pagina 439. Ajuste un modelo de regresion utilizando 
la razon de manejo y el peso como variables explicati- 
vas. Compare ese modelo con el de rls (regresion lineal 
simple) linicamente con el empleo del peso. Utilice R 2 , 
i?|j U y cualesquiera estadfsticos t (o F) que necesite 
para comparar la rls con el modelo de regresion mul- 
tiple. 

12.40 Considere el ejemplo 12.3. La figura 12.1 en la 
pagina 462 muestra una salida de SAS para un analisis 
del modelo que contiene las variables xi, x 2 y X3. Cen- 
trese en el intervalo de confianza de la respuesta media 
/iyen las ubicaciones (xi, X2, *3) que representan los 13 
puntos de los datos. Considere el concepto que aparece 
en la salida indicado por C.V. fise es el coeficiente de 
variacion, que se define como 

C.V. = - ■ 100, 

y 

donde s = Vs^ es la rafz del error cuadratico me- 
dio. El coeficiente de variacion se utiliza con frecuencia 
como otro criterio para comparar modelos en compe- 
tencia. Se trata de una cantidad sin escalas que expresa 
al estimador de <7, es decir s, como un porcentaje de 
la respuesta promedio y. En competencia por el “me- 
jor” modelo de un grupo de ellos en competencia, se 
prefiere aquel con un valor “pequeno” de C.V. Haga 
un analisis de regresion del conjunto de datos que se 
muestra en el ejemplo 12.3, pero elimine X3. Compare 
el modelo completo (xi, X2, X3) con el restringido (xi, 
X2) y centrese en dos criterios: i. C.V.; ii. los anchos de 
los intervalos de confianza sobre /.ty. Para el segundo 
criterio usted quiza desearia usar el ancho promedio. 
Haga comentarios. 


12.41 Considere el ejemplo 12.4 de la pagina 451. 
Compare los dos modelos en competencia 

Primer orden: y t = (3o + (3 ixu + /3 2 x 2 j + e», 
Segundo orden: y z = f3o + fhxu + /3 2 x 2l 

+ dll Xu + /3 22 X2 t + dl2XliX2i + £i. 

En su comparacion emplee ademas de probar 

Ho '■ P 11 = 022 = Pi 2 = 0. Tambien utilice C.V. segun 
lo hizo en el ejercicio 12.40. 

12.42 En el ejemplo 12.8 se trata el caso de eliminar 
del modelo xi, la temperatura del polvo, ya que el va- 
lor Pbasado en la prueba Fes 0.2156, en tanto que los 
valores P para xi y x 2 son casi cero. 

a) Reduzca el modelo con la elimination de xi, y gene- 
re un modelo completo y restringido (o reducido), y 
comparelos sobre la base de R£j u . 

b) Compare los modelos completo y restringido usando 
intervalos de prediction de 95% de ancho sobre una 
nueva observation. El “mejor” de ambos modelos 
sera aquel con intervalos de prediction mas “estre- 
chos”. Utilice el promedio del ancho de los interva- 
los de prediction. 

12.43 Considere los datos del ejercicio 12.15 de la 
pagina 455. /.Puede explicarse la respuesta, el uso, en 
forma adecuada mediante una sola variable (sea la vis- 
cosidad o la carga) con una rls en vez de con la regre- 
sion completa con dos variables? Justifique su respuesta 
con pruebas de hipotesis, asf como con la comparacion 
de los tres modelos en competencia. 

12.44 Para el conjunto de datos que se da en el ejerci- 
cio 12.16 de la pagina 455, £e s posible explicar la respues- 
ta en forma adecuada usando dos variables regresoras 
cualesquiera? Analice. 


12.8 Variables categoricas o indicadoras 

Un caso especial de aplicacion muy importante de la regresion lineal multiple ocurre 
cuando una o mas de las variables regresoras son categoricas o indicadoras. En 
un proceso qufmico, el ingeniero quiza desee modelar el producto contra regresores 
tales como la temperatura del proceso y el tiempo de reaction. Sin embargo, serfa 
de interes el uso de dos catalizadores diferentes y, por ello, incluir de algun modo el 
“catalizador” en el modelo. El efecto del catalizador no puede medirse sobre un con- 
tinuo, por lo que no es una variable categorica. Un analista podrfa desear modelar 
el precio de casas contra regresores que incluyeran los pies cuadrados de superficie 
habitable, x±, la superficie del terreno, x 2 , y la edad de la vivienda, X3. Estos regre- 
sores son de naturaleza claramente continua. Sin embrago, es evidente que el costo 
de las casas podrfa variar en forma sustancial de una zona del pafs a otra. Asf, po- 
drfan recabarse datos sobre las casas en el este, el medioeste, el sur y el oeste. Como 
resultado, se tiene una variable indicadora con cuatro categorfas. En el ejemplo 
del proceso qufmico, si se usaran dos catalizadores se tendrfa una variable indicadora 
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con dos categorias. En un ejemplo biomedico, un farmaco se compara con un placebo 
y se realizan diversas mediciones continuas sobre todos los sujetos, tales como su 
edad y su presion sanguinea, entre otras, al igual que el genero, que por supuesto es 
una variable categorica con dos categorias. Entonces, incluidas junto con las varia- 
bles continuas existen dos variables indicadoras, el tratamiento con dos categorias 
(farmaco activo y placebo) y el genero con dos categorias (masculino y femenino). 


Modelo con variables categoricas 

Para ilustrar la forma en que las variables indicadoras entran en el modelo, utilizare- 
mos el ejemplo del procesamiento quimico. Suponga que y = producto, x\ = tempe- 
ratura y xi = tiempo cle reaction. Ahora denotaremos con 2 la variable indicadora. 
Sea z = 0 para el catalizador 1 y z = 1 para el catalizador 2. La asignacion del indi- 
cador (0, 1) al catalizador es arbitraria. Como resultado, el modelo se convierte en 

Vi = 0o + 0ix u + 02 X 2 i + fa Zi + e it i = 1, 2, . . . , n. 


Tres categorias 

Lo que sigue es la estimation de los coeficientes con el metodo de minimos cua- 
clrados. En el caso de tres niveles o categorias de una sola variable indicadora, el 
modelo incluira dos regresores, por ejemplo z\ y Z 2 , donde la asignacion (0, 1) es 
como sigue: 


zi z 2 


n 

01 

1 

0 

1 

• • 0 

• O 

1 

• • O 

1 

• O 

• 0 

1 

O • • 

• • o' 


En otras palabras, si hay £ categorias, el modelo incluye £ — 1 terminos reales. 

Puede ser instructive observar la apariencia grafica del modelo con 3 categorias. 
En aras de la simplicidad, se considerara una sola variable continua x. 

Como resultado, el modelo esta dado por 


Vi — Po + 0l%i + 02 Z\i + 03%2i + £i • 
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Asf, la figura 12.2 rcflcja la naturaleza del modelo. Las siguientes son expresiones del 
modelo para las tres categories. 

E(Y) = (/3 0 + P 2 ) + Pix, categorfa 1, 

E(Y) = (flo + fa) + Pix, categorfa 2, 

E(Y) = (3 0 + (3\x, categorfa 3. 

Como resultado, el modelo que incluye variables categoricas en esencia implica un 
cambio en la interseccion conforme se pasa de una categorfa a otra. Desde luego, 
aquf se supone que los coeficientes de las variables continuas son las mismas 
a traves de las categorfas. 



Figura 12.2: Caso de tres categorfas. 


Ejemplo 12.9:1 Considere los datos de la tabla 12.7. La respuesta y es la cantidad de solidos en 
suspension en un sistema de limpieza de carbon. La variable x es el pH del sistema. 
En este se utilizan tres polfmeros diferentes. Asf, “polfmero” es categorico con tres 
categorfas, por lo que produce dos terminos en el modelo, el cual esta dado por 


Vi — Po + (3\Xi + 02Zu + P3Z2i + £i, * — 1,2,..., 18. 


Aquf se tiene que 


zi 



para el polfmero 1, 
en cualquier otro caso, 


1, para el polfmero 2, 

0, en cualquier otro caso. 


Seran de provecho algunos comentarios acerca de las conclusiones que se obten- 
gan del analisis de la figura 12.3. El coeficiente b\ para el pH es el estimador de la 
pendiente comun que se acepta en el analisis de regresion. Todos los terminos del 
modelo son estadfsticamente significativos. Asf, el pH y la naturaleza del polfmero 
tienen un efecto sobre la cantidad de limpieza. Los signos y las magnitudes de los 
coeficientes de Z\ y Z2 indican que el polfmero 1 es mas eficaz (produce mas solidos 
en suspension) en cuanto a la limpieza, seguido del polfmero 2. El polfmero 3 es el 
menos eficaz. 
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Tabla 12.7: Datos para el ejemplo 12.9 


X (pH) 

y (cantidad de solidos en suspension) 

Polfmero 

6.5 

292 

1 

6.9 

329 

1 

7.8 

352 

1 

8.4 

378 

1 

8.8 

392 

1 

9.2 

410 

1 

6.7 

198 

2 

6.9 

227 

2 

7.5 

277 

2 

7.9 

297 

2 

8.7 

364 

2 

9.2 

375 

2 

6.5 

167 

3 

7.0 

225 

3 

7.2 

247 

3 

7.6 

268 

3 

8.7 

288 

3 

9.2 

342 

3 




Sum of 




Source 

DF 

Squares 

Mean Square 

F Value 

Pr > F 

Model 

3 

80181.73127 

26727.24376 

73.68 

<.0001 

Error 

14 

5078.71318 

362.76523 



Corrected Total 

17 

85260.44444 





R-Square 

Coeff Var 

Root MSE 


y Mean 

0.940433 

6.316049 

19.04640 

301.5556 

Standard 

Parameter 

Estimate 

Error t 

Value 

Pr > | t I 

Intercept 

-161.8973333 

37.43315576 

-4.32 

0.0007 

X 

54.2940260 

4.75541126 

11.42 

<.0001 

zl 

89.9980606 

11.05228237 

8.14 

<.0001 

z2 

27.1656970 

11.01042883 

2.47 

0.0271 


Figura 12.3: Salida del SAS para el ejemplo 12.9. 


La pendiente puede variar con las categorfas indicadoras 

En el analisis efectuado hasta el momento, se ha supuesto que los terminos de las 
variables indicadoras entran al modelo en forma aditiva, lo cual sugiere que las pen- 
dientes, como las que se aprecia en la figura 12.2, son constantes a traves de las ca- 
tegorfas. Es evidente que este no siempre sera el caso. Existe la posibilidad de que las 
pendientes varfen y, con ello, las pruebas para esta condition de paralelismo por 
la inclusion de terminos de producto o interaction entre los terminos indicadores y 
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las variables continuas. Por ejemplo, suponga que se elige un modelo con un regresor 
continuo y una variable indicadora con dos niveles. Se tiene el modelo 

y = Po + P\x + p 2 z + p 3 xz + e. 

Este sugiere que para la categorfa 1 (z = 1), 

E{y) = (Po + 02) + (Pi + p 3 )x, 

mientras que para la categorfa 2 (z = 0), 

E(y) = Po + Pix. 

Asf, se permite que varfen la intersection y las pendientes para las dos categorfas. 
La figura 12.4 muestra las rectas de regresion con pendientes variables para las dos 
categorfas. 


y 

Categorfa 1 - pendiente = (/?, + 0 3 ) 
Categorfa 2- pendiente = (/3,) 

h 

Po 

x 

Figura 12.4: Falta de paralelismo en las variables categoricas. 


En este caso, Po, Pi y p 2 son positivas; mientras que p 3 es negativa con \P 3 \ < Pi- 
Es evidente que si el coeficiente de interaction /3 3 es insignificante, se esta de vuelta 
en el modelo comun de la pendiente. 


Ej ercicios 

12.45 Se realizo un estudio para evaluar la eficacia 
en cuanto al costo de manejar un automovil sedan de 
cuatro puertas en vez de una van o una SUV (vehfculo 
deportivo utilitario). Las variables continuas son la lec- 
tura del odometro y el octanaje de la gasolina emplea- 
da. La variable de respuesta esta en millas por galon. 
Los datos se presentan a continuation, 

a) Ajuste un modelo de regresion lineal que incluya dos 
variables indicadoras. Utilice 0, 0 para denotar al 
sedan de cuatro puertas. 


b) ^,Que tipo de vehfculo parece desempeiiarse mejor 
en cuanto a la distancia recorrida por unidad de 
gasolina? 

c) Analice la diferencia entre una van y una suv en 
terminos del rendimiento de la gasolina en cuanto a 
la distancia. 
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MPG 

Tipo de carro 

Odometro 

Octanaje 

bros de la familia y el genero del titular de la tarjeta. 

34.5 

sedan 

75000 

87.5 

Los datos son 

los siguientes: 


33.3 

sedan 

60000 

87.5 




30.4 

sedan 

88000 

78.0 



Miembros de 

32.8 

sedan 

15000 

78.0 

Utilidad 

Ingreso Genero 

la familia 

35.0 

sedan 

25000 

90.0 

157 

45000 M 

1 

29.0 

sedan 

35000 

78.0 

-181 

55000 M 

2 

32.5 

sedan 

102000 

90.0 

-253 

45800 M 

4 

29.6 

sedan 

98000 

87.5 

158 

38000 M 

3 

16.8 

van 

56000 

87.5 

75 

75000 M 

4 

19.2 

van 

72000 

90.0 

202 

99750 M 

4 

22.6 

van 

14500 

87.5 

-451 

28000 M 

1 

24.4 

van 

22000 

90.0 

146 

39000 M 

2 

20.7 

van 

66500 

78.0 

89 

54350 M 

1 

25.1 

van 

35000 

90.0 

-357 

32500 M 

1 

18.8 

van 

97500 

87.5 

522 

36750 F 

1 

15.8 

van 

65500 

78.0 

78 

42500 F 

3 

17.4 

van 

42000 

78.0 

5 

34250 F 

2 

15.6 

SUV 

65000 

78.0 

-177 

36750 F 

3 

17.3 

SUV 

55500 

87.5 

123 

24500 F 

2 

20.8 

SUV 

26500 

87.5 

251 

27500 F 

1 

22.2 

SUV 

11500 

90.0 

-56 

18000 F 

1 

16.5 

SUV 

38000 

78.0 

453 

24500 F 

1 

21.3 

SUV 

77500 

90.0 

288 

88750 F 

1 

20.7 

SUV 

19500 

78.0 

-104 

19750 F 

2 

24.1 

SUV 

87000 

90.0 





12.46 Se efectuo un estudio para determinar si el ge- 
nero del titular de la tarjeta de credito era un factor 
importante con respecto a la generation de utilidades 
para cierta compama de tarjetas de credito. Las varia- 
bles consideradas fueron el ingreso, el numero de miem- 


a) Ajuste un modelo de regresion lineal usando las va- 
riables disponibles. Con base en el modelo ajustado, 
^la compaih'a preferirfa clientes del genero masculino 
o del femenino? 

b) ^Dirfa usted que el ingreso fue un factor importante 
para explicar la variabilidad de la utilidad? 


12.9 Metodos secuenciales para la seleccion del modelo 

A veces, las pruebas de significancia estudiadas en la section 12.6 son muy adecua- 
das para determinar cuales variables deben usarse en el modelo final de la regre- 
sion. Dichas pruebas sin duda son eficaces si el experimento puede planearse y las 
variables son ortogonales entre sf. Incluso cuando las variables no sean ortogonales, 
las pruebas t individuales pueden usarse en muchos problemas donde es pequeno el 
numero de variables que se investiga. No obstante, hay problemas en que es necesa- 
rio utilizar tecnicas mas elaboradas para estudiar a las variables, en particular si el 
experimento muestra una desviacion sustancial de la ortogonalidad. Los coeficientes 
de correlation de la muestra, rxtxj, proporcionan mediciones utiles de multicolinea- 
lidad (dependencia lineal) entre las variables independientes. Como solo nos ocupa la 
dependencia lineal entre variables independientes, no hay confusion, se eliminan las x 
de la notation y unicamente se escribe rx t xj = m, donde 


Si- 


\J SuSjj 


Observe que, en sentido estricto, las no dan estimadores verdaderos de los coefi- 
cientes de correlation de la poblacion, ya que las x en realidad no son variables 
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aleatorias en el contexto que se estudia aquf. Asf, el termino correlacion, aunque 
estandar, quiza sea inadecuado. 

Cuando uno o mas de dichos coeficientes de correlacion muestral se desvfa de 
manera sustancial de cero, seria muy dificil encontrar el subconjunto de variables 
mas eficaz para su inclusion en la ecuacion de pronostico. De hecho, en ciertos pro- 
blemas la multicolinealidad sera tan extrema que no podria hallarse un predictor 
adecuado, a menos que se investiguen todos los subconjuntos posibles de variables. 
En la bibliografia se mencionan los analisis informativos de Hocking para la selection 
de modelos de regresion. En el libro de Myers (1990), tambien citado, se estudian 
procedimientos para detectar la multicolinealidad. 

El usuario de la regresion lineal multiple busca lograr uno de tres objetivos: 

1. Obtener estimadores de coeficientes individuales en un modelo completo. 

2. Estudiar variables para determinar cuales tienen un efecto significativo sobre la 
respuesta. 

3. Llegar a la ecuacion de pronostico mas eficaz. 

En el punto 1., se sabe de antemano que todas las variables deben incluirse en el 
modelo. En el 2., la prediction es secundaria; mientras que en el 3., los coeficientes 
de regresion individuales no son tan importantes como la calidad de la respuesta 
estimada y. Para cada una de las situaciones anteriores, la multicolinealidad en el 
experimento llega a tener un efecto profundo sobre el exito de la regresion. 

En esta section se estudian algunos procedimientos secuenciales estandar para se- 
leccionar variables, los cuales se basan en el concepto de que una sola variable o una 
coleccion de ellas no deberfa aparecer en la ecuacion de estimation, a menos que origine 
un incremento significativo en la suma de cuadrados de la regresion o, en forma equi- 
valente, un incremento significativo de R?, el coeficiente de determinacion multiple. 


Ilustracion del estudio de las variables en presencia de colinealidad 


Ejemplo 12.10:1 Considere los datos de la tabla 12.8, que muestra mediciones de 9 bebes. El propo- 
sito del experimento era llegar a una ecuacion de estimation apropiada que relacio- 
nara la longitud del bebe con todas las variables independientes o un subconjunto 
de ellas. Los coeficientes de correlacion muestral, que indican la dependencia lineal 
entre las variables independientes, se muestran en la matriz simetrica 


Xi 

X2 

%3 

X4 

1.0000 

0.9523 

0.5340 

0.3900 

0.9523 

1.0000 

0.2626 

0.1549 

0.5340 

0.2626 

1.0000 

0.7847 

0.3900 

0.1549 

0.7847 

1.0000 


Observe que parece haber una cantidad apreciable de multicolinealidad. Con la tec- 
nica de mfnimos cuadrados que se describio en la section 12.2, se ajusto la ecuacion 
de regresion estimada usando el modelo completo: 

y = 7.1475 + 0. 1000a:i + 0.7264x 2 4- 3.0758x 3 - 0.0300x 4 . 

El valor de s 2 con 4 grados de libertad es 0.7414, y el valor para el coeficiente de 
determinacion para este modelo resulta 0.9908. En la tabla 12.9 se dan la suma 
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Tabla 12.8: 

Datos relacionados 

con la longitud de un 

bebe* 

Longitud del 
bebe, y (cm) 

Edad, 
X\ (dias 

Longitud al 
) nacer, X 2 (cm) 

Peso al nacer 
*3 (kg) 

Tamano del pecho 
al nacer, X 4 (cm) 

57.5 

78 

48.2 

2.75 

29.5 

52.8 

69 

45.5 

2.15 

26.3 

61.3 

77 

46.3 

4.41 

32.2 

67.0 

88 

49.0 

5.52 

36.5 

53.5 

67 

43.0 

3.21 

27.2 

62.7 

80 

48.0 

4.32 

27.7 

56.2 

74 

48.0 

2.31 

28.3 

68.5 

94 

53.0 

4.30 

30.3 

69.2 

102 

58.0 

3.71 

28.7 


*Datos analizados por el Statistical Consulting Center, Instituto Politecnico y Universidad Estatal de Virgi- 
nia, Blacksburg, Virginia. 


Tabla 12.9: Valores t para los datos de regresion de la tabla 12.8 


Variable x,\ 

Variable 

Variable X 3 

Variable x.i 

R{Pi\P 2 ,^,Pa) 

R{P 2|/?1> 1^3, A0 

TtC&ldvAuAi) 

R{di\j P 2 , P 3 ) 

= 0.0644 

= 0.6334 

= 6.2523 

= 0.0241 

t = 0.2947 

t = 0.9243 

t = 2.9040 

t = -0.1805 


de cuadrados de la regresion que mide la variation atribuida a cada variable indivi- 
dual en presencia de las demas, y los valores t correspondientes. 

Una region critica de doble cola con 4 grados de libertad con un nivel de signi- 
ficancia de 0.05 ocurre en t > 2.776. De los cuatro valores t calculados, solo la 
variable x 3 parece ser significativa. Sin embargo, hay que recordar que aunque 
el estadistico t descrito en la section 12.6 mide el beneficio que aporta una variable 
ajustada a todas las demas, no detecta la importancia potencial de una variable en 
combination con un subconjunto de ellas. Por ejemplo, considere el modelo con solo 
las variables X 2 y £3 en la ecuacion. El analisis de los datos de la funcion de regre- 
sion 


y = 2.1833 + 0.9576x2 + 3.3253x 3 , 

con R 2 = 0.9905, que por cierto no es una reduction sustancial de R 2 = 0.9907 para 
el modelo completo. Sin embargo, a menos que las caracteristicas de desempeno 
de esta combination particular hayan sido observadas, no se estaria al tanto de su 
potencial predictivo. Esto, por supuesto, apoya una metodologia que observe todas 
las regresiones posibles, o un procedimiento secuencial sistematico disehado para 
probar subconjuntos diferentes. 


Regresion progresiva 

Un procedimiento estandar para buscar el “subconjunto optimo” de variables en 
ausencia de ortogonalidad es una tecnica denominada regresion progresiva. Se 
basa en el procedimiento de introducir en forma secuencial las variables al modelo, 
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una por una. La description de la rutina progresiva se entendera mejor si en primer 
lugar se describen los metodos de seleccion hacia delante y seleccion hacia 
atras. 

La seleccion hacia delante se basa en el concepto de que las variables deben 
insertarse una a la vez, hasta que se encuentre una ecuacion de regresion satisfacto- 
ria. El procedimiento es como sigue: 

PASO 1. Elija la variable que de la mayor suma de cuadrados de la regresion, 
cuando se ejecute la regresion lineal simple con y o, en forma equivalente, aque- 
11a que de el mayor valor de R 2 . Esta variable inicial se llamara x\. 

PASO 2. Seleccione la variable que cuando entra al modelo da el incremento 
mayor de i? 2 , en presencia de xi, sobre la R 2 hallada en el paso 1. Esta, por 
supuesto, es la variable x s , para la que 

R(0 j \l3 1 ) = R(/h,l3 j )-R(l3 1 ) 

es mas grande. Dicha variable se llamara x 2 . El modelo de regresion con el que 
x\ y x 2 entonces es ajustado y R 2 observado. 

PASO 3. Elija la variable Xj que da el valor mas grande de 

R(J3j |/? i ,/ 5 2 ) = R(f3 ufaPj) - R((3 1 ,/? 2 ), 

otra vez resulta en el incremento mayor de R 2 sobre aquel obtenido en el paso 2. 
Esta variable se llamara x 3 , y ahora se tiene un modelo de regresion que incluye 
xi, x 2 y x 3 . 


Este proceso continua hasta que la variable mas reciente que ingreso ya no indu- 
ce un incremento significativo en la regresion explicada. Tal incremento puede de- 
terminarse en cada paso con el uso adecuado de una prueba F o una t. Por ejemplo, 
en el paso 2, el valor 


, gw 1) 

J 9 

se determina para probar la pertinencia de x 2 en el modelo. Aqui, el valor de s 2 es el 
error cuadratico medio para el modelo que contiene las variables x\ y x 2 . De manera 
similar, en el paso 3, la razon 


, RWufh) 

J 9 

prueba la pertinencia de x 3 en el modelo. Sin embargo, ahora el valor de s 2 es el 
error cuadratico medio para el modelo que contiene las tres variables Xi, x 2 y x 3 . 
Si en el paso 2, f < f a (1, n — 3) para un nivel de significancia preseleccionado, x 2 
no esta incluida y el proceso finaliza, lo que da como resultado una ecuacion lineal 
simple que relaciona y y x\. Sin embargo, si / > f a { 1, n — 3), se pasa al paso 3. De 
nuevo si, en el paso 3, / < f a { 1, n — 4) x 3 no queda incluida y el proceso concluye 
con la ecuacion de regresion apropiada que contiene las variables x\ y x 2 . 

La elimination hacia atras implica los mismos conceptos que la seleccion ha- 
cia delante, excepto que se comienza todas las variables en el modelo. Por ejemplo, 
suponga que hay cinco variables en consideration. Los pasos son: 
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Ejemplo 12.11:1 
Solution: 


PASO 1. Ajuste una ecuacion de regresion con las cinco variables incluidas en 
el modelo. Elija la variable que de el valor mas pequeno de la suma de cuadrados 
de la regresion ajustada para las demas. Suponga que dicha variable es £2. 
Elimine X 2 del modelo si 

_ -R(/32 I /3i , /?3 , /3 4 , /?5 ) 

J 9 

es insignificante. 

PASO 2. Ajuste una ecuacion de regresion que use las variables restantes aq, 
£3, £4 y £5, y repita el paso 1. Suponga que esta vez se elige la variable £5. Otra 
vez, si 

r _ RjPslPi, P3, At) 

J 9 

es insignificante, se retira del modelo la variable £5. En cada paso, la s 2 que se 
usa en la prueba F es el error cuadratico medio para el modelo de regresion en 
esa etapa. 

Este proceso se repite hasta que en algun paso la variable con la suma de cua- 
drados de la regresion ajustada da como resultado un valor / significativo para algun 
nivel de significancia predeterminado. 

La regresion progresiva se lleva a cabo con una modification ligera pero 
importante del procedimiento de selection hacia clelante. La modification requiere 
efectuar mas pruebas en cada etapa, para garantizar la eficacia continuada de las 
variables que se hubieran incluido en el modelo durante alguna etapa anterior. Esto 
representa una mejorfa sobre la selection hacia clelante, ya que es muy posible que 
una variable que haya entrado a la ecuacion de regresion en una etapa temprana 
podrfa carecer de importancia, o ser redundante, debido a las relaciones que existen 
entre ella y las demas variables de las etapas posteriores. Por lo tanto, en una etapa 
en que una variable nueva haya ingresado a la ecuacion de regresion con un incre- 
mento significativo de R 2 segun lo determina la prueba F, todas las variables que ya 
esten en el modelo quedan sujetas a pruebas F (o, en forma equivalente, a pruebas t) 
a la luz de esta variable nueva, y si no muestran un valor / significativo, se eliminan. 
El procedimiento continua hasta que se alcance una etapa donde no puedan inser- 
tarse ni eliminarse variables adicionales. Este procedimiento hacia delante se ilustra 
con el siguiente ejemplo. 


Usando tecnicas de regresion progresiva, encuentre un modelo de regresion lineal ade- 
cuado para predecir la longitud de los bebes cuyos datos se presentan en la tabla 12.8. 
PASO 1. Se considera cada variable por separado y se ajustan cuatro ecuacio- 
nes individuales de regresion lineal simple. Se calculan las siguientes sumas de 
cuadrados de la regresion que son pertinentes: 

R(P 1) = 288.1468, R(fo) = 215.3013, 

R{P 3 ) = 186.1065, R(p 4 ) = 100.8594. 

Es claro que la variable £1 da la suma de cuadrados de la regresion mas elevada. El 
error cuadratico medio para la ecuacion que implica solo £1 es s 2 = 4.7276 y como 


/ = 


R(Pi) 

„2 


288.1468 

4.7276 


60.9500, 


que excede /o.os(l-7) = 5.59, se introduce al modelo la variable £1. 
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PASO 2. En esta etapa se ajustan tres ecuaciones de regresion, todas las cuales 
contienen x\. Los resultados importantes para las combinaciones (xi, x-z), (xi, 
X3) y (xi, X4) son 

R(/3 2 |/?i) = 23.8703, R(/3 3 |/?i) = 29.3086, -R(/5 4 |/?i) = 13.8178. 


La variable X3 muestra la mayor suma de cuadrados de la regresion en presen- 
cia de X\. La regresion que implica xi y X3 da un valor nuevo de s 2 = 0.6307 y 
como 


_ Rjfo |/?i) _ 29.3086 _ 

1 s 2 0.6307 ' ’ 

que excede /o.os(l) 6) = 5.99, la variable X3 se incluye en el modelo junto con 
x\. Alrora, debemos someter a Xi a una prueba de significancia en la presencia 
de X3. Encontramos que R(f3\\(3?) = 131.349, por lo que 


R(Pi Ifo) 

„2 


131.349 

0.6307 


208.26, 


que es muy significativa. Por lo tanto, se mantiene xi junto con X3. 

PASO 3. Con xi y X3 ya en el modelo, ahora se requiere R{/3 zlPiPz) y 
R(Pi\(5\(5z), con la finalidad de determinar cual, si alguna, de las dos variables 
restantes debe entrar en esta etapa. Del analisis de regresion, usando xz junto 
con xi y X3, se encuentra que R (/3z | P 1 P 3 ) = 0.7948, y cuando X4 se utiliza con 
Xi y X3 se obtiene R((3 4 1 /3 i/? 3) = 0.1855. El valor de s 2 es 0.5979 para la combi- 
nation (xi, X2, X3), y de 0.7198 para la combinacion (xi, xz, X4). Como ningun 
valor / es significativo con el nivel a = 0.05, el modelo final de regresion solo 
incluye las variables xi y X3. Se encuentra que la ecuacion de estimacion es 


y = 20.1084 + 0.4136xi + 2.0253x a , 

y el coeficiente de determination para este modelo es R 2 = 0.9882. 

Aunque (xi, X3) es la combinacion elegida por la regresion progresiva, no nece- 
sariamente es la combinacion de dos variables que da el valor mas grande de R 2 . De 
hecho, ya se observo que la combinacion (X2, X3) da un valor de R 2 = 0.9905. Desde 
luego, el procedimiento progresivo nunca observo en realidad dicha combinacion. 
Podrfa plantearse un argumento rational de que en realidad hay una diferencia 
despreciable en el desempeho entre esas dos ecuaciones de estimacion, al menos en 
terminos del porcentaje de variacion explicado. Sin embargo, es interesante observar 
que la elimination hacia atras da la combinacion (X2, X3) en la ecuacion final (vease 
el ejercicio 12.49 en la pagina 496). 


Resumen 


La funcion principal de cada uno de los procedimientos explicados en esta section 
consiste en exponer las variables a una metodologfa sistematica, clisenada para ga- 
rantizar la inclusion final de las combinaciones mejores de ellas. Es evidente que no 
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es seguro que esto pase en todos los problemas, y, por supuesto, es posible que la 
multicolinealidad sea tan extensa que no haya mas alternativa que apoyarse en pro- 
cedimientos de estimation diferentes de los minimos cuadrados. Tales procedimien- 
tos de estimation se estudian en Myers (1990), citado en la bibliografia. 

Los procedimientos secuenciales que se estudian aqui representan tres de muchos 
metodos parecidos que aparecen en la bibliografia y para los cuales se dispone de 
varios paquetes de regresion por computadora. Estos metodos fueron diseiiados para ser 
eficientes en cuanto a computation, aunque, desde luego, no dan resultados para todos 
los subconjuntos posibles de las variables. Como resultado, los procedimientos son 
mas eficaces en conjuntos de datos que incluyen un mirncro grande de variables. 
En problemas de regresion que implican un numero relativamente pequeiio de varia- 
bles, los paquetes modernos de computo para la regresion permiten el calculo y resumen 
la information cuantitativa de todos los modelos para cada subconjunto posible de 
variables. En la section 12.11 se dan ilustraciones de ello. 


12.10 Estudio de los residuos y trasgresion de las suposiciones 
(verificacion del modelo) 

En un punto anterior de este capitulo se sugirio que los residuos, o errores en el ajus- 
te de regresion, con frecuencia dan information muy valiosa para el analista de los 
datos. Los ti = Vi ~ Vi, i = 1, 2, . . . ,n, que son la contraparte numerica de los e,, 
los errores del modelo, arrojan luz sobre la posible trasgresion de las suposiciones o 
la presencia de datos de puntos “sospechosos” . Suponga que el vector x,; clenota los 
valores de las variables regresoras que corresponden al i-esimo dato de los puntos, 
que incluye un 1 en la position inicial. Es decir, 


X i [1 , ^li , %2i ; • • • ? %ki] • 

Considere la cantidad 

hu = x i (X'X) _1 x i , i = 1,2, ... ,n. 

El lector cleberia notar que hu se utilizo en la section 12.5 para calcular los interva- 
los de confianza sobre la respuesta media. Aclemas de cr 2 , hu representa la varianza 
del valor ajustado y*. Los valores hu son los elementos de la diagonal de la matriz 

TESTADA 


H = X(X , X)" 1 X', 

que desempena un papel importante en cualquier estudio de los residuos y en otros 
aspectos modernos del analisis de regresion (vease la referenda a Myers, 1990, en 
la bibliografia). El termino matriz testada se cleriva del hecho de que H genera las 
“ y testadas”, o valores ajustados cuando se multiplica por el vector y de respuestas 
observadas. Es decir, y = Xb, por lo que 

y = X(X'X)- 1 X'y = Hy, 


donde y es el vector cuyo i-esimo elemento es yu 
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Si se hacen las suposiciones usuales de que los e* son independientes y estan dis- 
tribuidos normalmente con media cero y varianza a 2 , las propiedades estadisticas de 
los residuos quedan caracterizadas con facilidad. Entonces, 

E(e x ) = E(yi - xji) = 0, y a 2 . = (1 - h u )a 2 , 

para i = 1, 2, . . . , n. (Para mayores detalles, vease Myers, 1990.) Puede demostrarse 
que los valores de la diagonal de la matriz testada estan acotados de acuerdo con 
la desigualdad 

- < ha < 1 . 
n 

n 

Ademas, ^ ha = k + 1, el numero de parametros de la regresion. Como resultado, 
i= 1 

cualquier dato de punto cuyo elemento diagonal testada sea grande, es decir, muy 
por encima del valor promedio de ( k + 1 )/n, esta en una position dentro del con- 
junto de datos donde la varianza de y t es relativamente grande, y la varianza de un 
residuo es relativamente pequena. Como resultado, el analista de datos puede ob- 
tener alguna perspectiva de que tan grande puede ser un residuo antes de que su 
desviacion de cero se atribuya a algo distinto de la mera aleatoriedad. Muchos de los 
paquetes comerciales para computadora sobre la regresion producen el conjunto de 
residuos studentizados . 


Residuo 

studentizado 


Sy/l - h v 


1 , 2 ,..., 


Aqui, cada residuo se dividio en una estimacion de su desviacion estandar, 
con la creation de un estadistico tipo t disenado para clar al analista una cantidad 
libre de escala, que proporcione information sobre el tamano del residuo. Ademas, 
es frecuente que los paquetes de computo estandar proporcionen valores de otro 
conjunto de residuos tipo studentizados, clenominados valores R de Student. 

Residuo R 
de Student 


U = 


S — iV 1 hi 


i = 1,2, 


donde s_* es un estimador de la desviacion estandar del error, calculado con el 
i-esimo dato de los puntos eliminado. 

Hay tres tipos de trasgresiones de las suposiciones que se detectan con facilidad 
utilizando los residuos o las graficas de residuos. En tanto que las graficas de re- 
siduos crudos, los ei, son de ayuda, con frecuencia es mas informativo graficar los 
residuos studentizados. Las tres trasgresiones son como sigue: 


1. Presencia de valores extremos. 

2. Varianza del error heterogenea. 

3. Mala especificacion del modelo. 


En el caso 1, elegimos definir un valor extremo como dato de punto que tiene 
una desviacion de la suposicion usual de que E(ei) = 0 para un valor especifico de i. 
Si hay una razon para creer que un dato de punto especifico es un valor extremo y 
ejerce una influencia grande sobre el modelo ajustado, ri o t, pueden dar informa- 
tion. Es de esperarse que los valores R de Student sean mas sensibles a los valores 
extremos que los valores ri. 

En realidad, en condiciones en que E(ei) = 0, L es un valor de una variable 
aleatoria que sigue una distribution t con n — 1 — (fc+l)=n — k — 2 grados de 


*Por Student , seudonimo del autor de la distribucion t. NT. 
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libertad. Asf, es posible utilizar una prueba t de dos colas para obtener informacion 
para detectar si el punto i-esimo es un valor extremo o no. 

Aunque el estadistico R de Student t, produce una prueba t exacta para detectar 
un valor extremo en una ubicacion especifica, la distribution t no se aplicaria para 
probar simultaneamente varios de ellos en todas las ubicaciones. Como resultado, los 
residuos studentizados o valores R de Student deberfan usarse estrictamente como 
herramientas de diagnostico sin pruebas de hipotesis formales como mecanismo. La 
implication es que dichos estadisticos resaltan datos de puntos en los cuales el error 
del ajuste es mayor de lo esperado por la sola aleatoriedad. Valores R de Student de 
magnitud grande sugieren la necesidad de “verificar” los datos con todos los recur- 
sos disponibles. La practica de eliminar observaciones de conjuntos de datos de la 
regresion no deberia llevarse a cabo en forma indiscriminada. (Para mas informacion 
sobre el uso de los diagnosticos sobre valores extremos, vease la referenda a Myers, 
1990, en la bibliografia.) 


Ilustracion de la deteccion de valores extremos 


Ejemplo 12.12:1 En un experimento biologico efectuado en el Departamento de Entomologia del 
Instituto Politecnico y Universidad Estatal de Virginia, se hicieron n corridas expe- 
rimentales con dos metodos diferentes para capturar saltamontes. Los metodos son 
captura en red de caida y captura en red de barrido. Para cada metodo, se registro el 
numero promedio de saltamontes atrapados en un conjunto de cuadrantes del campo 
en una fecha dada. Tambien se registro una variable regresora adicional: la altura 
promedio de las plantas en los cuadrantes. Los datos experimentales aparecen en la 
tabla 12.10. 


Tabla 12.10: Conjunto de datos para el ejemplo 12.12 


Observation 

Captura con 
red de caida, y 

Captura con 
red de barrido, x x 

Altura de las 
plantas, x 2 (cm) 

1 

18.0000 

4.15476 

52.705 

2 

8.8750 

2.02381 

42.069 

3 

2.0000 

0.15909 

34.766 

4 

20.0000 

2.32812 

27.622 

5 

2.3750 

0.25521 

45.879 

6 

2.7500 

0.57292 

97.472 

7 

3.3333 

0.70139 

102.062 

8 

1.0000 

0.13542 

97.790 

9 

1.3333 

0.12121 

88.265 

10 

1.7500 

0.10937 

58.737 

11 

4.1250 

0.56250 

42.386 

12 

12.8750 

2.45312 

31.274 

13 

5.3750 

0.45312 

31.750 

14 

28.0000 

6.68750 

35.401 

15 

4.7500 

0.86979 

64.516 

16 

1.7500 

0.14583 

25.241 

17 

0.1333 

0.01562 

36.354 
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El objetivo es poder estimar la captura de saltamontes empleando unicamente el 
metodo de la red de barrido, que es menos costoso. Hay cierta preocupacion acerca 
de la validez del cuarto dato de los puntos. La captura observada que se reporto 
con el uso del metodo de la red de catda parece inusualmente alta, dadas las demas con- 
diciones y, asimismo, habta la sensation de que la cifra podia ser erronea. Ajuste un 
modelo del tipo 


Vi= 00 + PlXl + 02X2 


a los 17 datos de los puntos y estudie los residuos para determinar si el dato del 
punto 4 es un valor extremo. 

Solucion: Un paquete de computo genero el modelo de regresion ajustado 


y = 3.6870 + 4.1050a;i - 0.0367x 2 

junto con los estadtsticos R 2 = 0.9244 y s 2 = 5.580. Tambien se obtuvieron los resi- 
duos y otra information de diagnostico, y se registraron en la tabla 12.11. 


Tabla 12.11: Information sobre los residuos para el conjunto de datos delejemplo 12.12 


Obs. 

Vi 

Vi 

Vi ~ Vi 

hii 

«s\/l hn 

ri 

U 

1 

18.000 

18.809 

-0.809 

0.2291 

2.074 

-0.390 

-0.3780 

2 

8.875 

10.452 

-1.577 

0.0766 

2.270 

-0.695 

-0.6812 

3 

2.000 

3.065 

-1.065 

0.1364 

2.195 

-0.485 

-0.4715 

4 

20.000 

12.231 

7.769 

0.1256 

2.209 

3.517 

9.9315 

5 

2.375 

3.052 

-0.677 

0.0931 

2.250 

-0.301 

-0.2909 

6 

2.750 

2.464 

0.286 

0.2276 

2.076 

0.138 

0.1329 

7 

3.333 

2.823 

0.510 

0.2669 

2.023 

0.252 

0.2437 

8 

1.000 

0.656 

0.344 

0.2318 

2.071 

0.166 

0.1601 

9 

1.333 

0.947 

0.386 

0.1691 

2.153 

0.179 

0.1729 

10 

1.750 

1.982 

-0.232 

0.0852 

2.260 

-0.103 

-0.0989 

11 

4.125 

4.442 

-0.317 

0.0884 

2.255 

-0.140 

-0.1353 

12 

12.875 

12.610 

0.265 

0.1152 

2.222 

0.119 

0.1149 

13 

5.375 

4.383 

0.992 

0.1339 

2.199 

0.451 

0.4382 

14 

28.000 

29.841 

-1.841 

0.6233 

1.450 

-1.270 

-1.3005 

15 

4.750 

4.891 

-0.141 

0.0699 

2.278 

-0.062 

-0.0598 

16 

1.750 

3.360 

-1.610 

0.1891 

2.127 

-0.757 

-0.7447 

17 

0.133 

2.418 

-2.285 

0.1386 

2.193 

-1.042 

-1.0454 


Como se esperaba, el residuo en la cuarta ubicacion parece inusualmente grande, 
7.769. La cuestion fundamental aquf es si este residuo es mas grande o no que el que 
se esperaria clebido al azar. El error estandar para el punto 4 es 2.209. El valor R 
de Student, ti, resulta de 9.9315. Al ver este como el valor de una variable aleatoria 
que tiene una distribution t con 13 grados de libertad, se concluiria sin duda que el 
residuo de la cuarta observation es algo mayor que 0, y que la medicion del presunto 
error esta apoyada por el estudio de los residuos. Observe que ningun otro valor de 
los residuos en un valor R de Student es motivo de alarma. 
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Grafica de los residuos 

En el capftulo 11 estudiamos con cierto detalle la utilidad de graficar los residuos 
en el analisis de regresion. Es frecuente que con base en dichas graficas se detecte la 
trasgresion de las suposiciones del modelo. En la regresion multiple, la probabilidad 
normal de la grafica de los residuos o de los residuos contra y es de utilidad. Sin 
embargo, con frecuencia es preferible graficar los residuos studentizados. 

Hay que recordar que la preferencia de los residuos studentizados sobre los re- 
siduos ordinarios para propositos de graficacion surge del hecho de que como la va- 
rianza del i-esimo residuo depende del i-esimo elemento en la diagonal de la matriz 
testada, las varianzas de los residuos diferiran si hay dispersion en las diagona- 
ls testadas. Asf, la apariencia de una grafica de residuos puede ser heterogenea debido 
a que estos no se comportan, en general, en forma ideal. El proposito de utilizar residuos 
studentizados es proporcionar una estandarizacidn. Es claro que si se conociera cr, 
entonces en condiciones ideales (es decir, un modelo correcto y una varianza homo- 
genea), se tendrfa 


E 


e* 


T \/T ~hii 


= o, 


y Var 


oV 1 — hi- 


= 1 . 


Por lo que los residuos studentizados producen un conjunto de estadfsticos que se 
comportan en forma estandar bajo condiciones ideales. La figura 12.5 muestra una 
grafica de valores R de Student para los datos de los saltamontes del ejemplo 
12.12. Observe que el valor para la observation 4 se aparta de los demas. La grafica R 
de Student se genero con el software SAS. La grafica presenta los residuos contra los 
valores y. 



Figura 12.5: Valores R de Student graficados contra los valores predichos 
para los datos de los saltamontes del ejemplo 12.12. 
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Verificacion de la normalidad 

El lector debe recordar la importancia que tiene verificar la normalidad utilizando 
la grafica de la probabilidad normal, segun se estudio en el capitulo 11. La misma 
recomendacion es valida para el caso de la regresion lineal multiple. Las graficas 
de probabilidad normal pueden generarse con el empleo de software estandar para 
regresion. Sin embargo, otra vez, pueden ser mas eficaces si no se usan residuos or- 
dinarios, sino studentizados o valores R de Student. 


12.11 Validacion cruzada, y otros criterios para la seleccion 
del modelo 

Para muchos problemas de regresion, el experiment ador debe elegir entre distintos 
modelos alternatives o formas de modelo que se clesarrollen a partir del mismo con- 
junto de datos. En efecto, con mucha frecuencia se requiere el modelo que predice 
o estima mejor la respuesta media. El experimentador debe tomar en cuenta los 
tamanos relativos de los valores de s 2 para los modelos candidates y, sin cluda, la 
naturaleza general de los intervalos de confianza sobre la respuesta media. Tambien 
debe considerarse lo bien que prediga el modelo valores de la respuesta que no se 
hayan utilizado para construir los modelos candidato. Los modelos deben 
estar sujetos a validacion cruzada. Entonces, lo que se requiere son los errores de 
la validacion cruzada en vez de los errores del ajuste. Tales errores en la prediction 
son los residuos press. 

Si yi yp— z, i 1,2,..., n, 

donde yi — i, es la prediction del z-esimo dato de punto por medio de un modelo que 
no utiliza el z-esimo punto en el calculo de los coeficientes. Estos residuos press se 
calculan a partir de la formula 

5i = — , i = 1,2, ... ,n, 

1 hii 

(La obtencion de esta se encuentra en el libro de texto sobre regresion de Myers, 
1990.) 

Uso del estadfstico press 

La motivation para utilizar press y la herramienta de los residuos press es muy 
facil de entender. El proposito de extraer o separar datos de puntos uno a la vez 
es permitir el empleo de metodologias separadas para ajustar y evaluar un modelo 
especifico. Para evaluar un modelo, la z” indica que el residuo press comete un 
error de prediction donde la observation que se predice es independiente del ajuste 
del modelo. 

Los criterios que usan los residuos press estan dados por 

n n 

YI M y press = Y s i- 

i= 1 i = 1 

El termino press es un acronimo de suma de cuadrados de la prediction (pre- 
diction sum of squares). Se sugiere emplear ambos criterios. Es posible que press 
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n 

sea dominado por uno o algunos residuos press grandes. Es claro que el criterio E |<M 
es menos sensible a un numero pequeiio de valores grandes. 1=1 

Ademas del estadi'stico press en si, el analista puede tan solo calcular otro “seme- 
jante al R ” que reflcje la bondad de la prediction. Es frecuente que clicho estadi'stico 
se denomine i?p re d y esta dado como sigue: 


R 2 de la prediction 


Dado un modelo ajustado con valor especifico para press, Rp le d esta dado por 


R 


2 

pred 


= l - 


press 


E (yi - y ) 2 

i= 1 


Observe que i?p re d es tan solo el estadi'stico ordinario R 2 con la SSE reemplazada 
por el estadi'stico press. 

En el ejemplo siguiente se ilustra un “estudio de caso” clonde se ajustan muchos 
modelos candidato a un conjunto de datos y se elige el mejor de ellos. No se emplean 
los procedimientos secuenciales descritos en la section 12.9. En cambio, se ilustra el 
papel de los residuos press y otros valores de estadisticos para seleccionar la mejor 
ecuacion de regresion. 


Ejemplo 12.13:1 Estudio de caso La fortaleza en las piernas es un requisito necesario para un pa- 
teador exitoso en el futbol americano. Una medida de la calidad de un buen pateador 
es el “tiempo de vuelo”, que es el tiempo que el balon se mantiene en el aire antes 
de ser atrapado por el regresador de patadas. Para determinar cuales factores de la 
fortaleza en las piernas influyen en el tiempo de vuelo y desarrollar un modelo em- 
pirico para predecir esta respuesta, el Departamento de Salud, Education Fisica y 
Recreation, del Instituto Politecnico y Universidad Estatal de Virginia, llevo a cabo 
un estudio sobre La relation entre variables seleccionadas de desempeno fisico y la 
capacidad de despejes en el futbol. Se eligieron 13 pateadores para el experimento, 
y cada uno pateo 10 veces el balon. El tiempo de vuelo promedio, junto con las medi- 
ciones de fortaleza usada en el analisis, estan registrados en la tabla 12.12. 

Cada variable regresora se define como sigue: 

1 . rls, fortaleza en la pierna derecha (libras) . 

2. lls, fortaleza en la pierna izquierda (libras). 

3. rhf, flexibilidad del musculo del tendon derecho (grados). 

4. lhf, flexibilidad del musculo del tendon izquierdo (grados). 

5. Potencia, fortaleza conjunta de las piernas (pies-libra). 

Determine el modelo mas adecuado para predecir el tiempo de vuelo. 

Solution: En la busqueda del “mejor” de los modelos candidato para predecir el tiempo de 
vuelo, se obtuvo la information de la tabla 12.13 a partir de un paquete de computo 
para regresion. Los modelos estan clasificados en orden ascendente con respecto a los 
valores del estadi'stico press. Esta presentation brinda information suficiente acerca 
de todos los modelos posibles, con la finalidad de permitir que el usuario elimine algu- 
nos de estos. El modelo que contiene a X 2 y x§ ( lls y Potencia ), denotado con X 2 X 5 , 
parece superior para predecir el tiempo del vuelo para los pateadores. Asimismo, 
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Tabla 12.12: Datos para el ejemplo 12.13 


Pateador 

Tiempo de, 
vuelo y{ seg) 

RLS, 

Xi 

LLS, 

x 2 

RHF, 

X3 

LHF, 

X\ 

Potencia, 

x 5 

1 

4.75 

170 

170 

106 

106 

240.57 

2 

4.07 

140 

130 

92 

93 

195.49 

3 

4.04 

180 

170 

93 

78 

152.99 

4 

4.18 

160 

160 

103 

93 

197.09 

5 

4.35 

170 

150 

104 

93 

266.56 

6 

4.16 

150 

150 

101 

87 

260.56 

7 

4.43 

170 

180 

108 

106 

219.25 

8 

3.20 

110 

110 

86 

92 

132.68 

9 

3.02 

120 

110 

90 

86 

130.24 

10 

3.64 

130 

120 

85 

80 

205.88 

11 

3.68 

120 

140 

89 

83 

153.92 

12 

3.60 

140 

130 

92 

94 

154.64 

13 

3.85 

160 

150 

95 

95 

240.57 


n 

observe que todos los modelos con press bajo, s 2 baja, bajo I I • y valores altos 
de R 2 , contienen esas dos variables. 1=1 

Con el proposito de obtener alguna perspectiva de los residuos de la regresion 
ajustada 


Vi = b Q + b 2 x 2i + b 5 x 5i , 

se generaron los residuos y los residuos press. El modelo de prediccion real (vease el 
ejercicio 12.47 en la pagina 496) esta dado por 

y = 1.10765 + 0.01370x2 + 0.00429x 5 . 

En la tabla 12.14 se listan los residuos, los valores de la diagonal testada y los va- 
lores PRESS. 

Observe el ajuste a los datos relativamente bueno de los modelos de regresion 
con dos variables. Los residuos press rcflcjan la capacidad de la ecuacion de regre- 
sion para predecir el tiempo de vuelo si se hicieran predicciones independientes. Por 
ejemplo, para el pateador numero 4, el tiempo de vuelo de 4. 180 tendria un error de 
prediccion de 0.039 si se construyera el modelo usando los 12 lanzadores restantes. 
Para este modelo, el error promedio de la prediccion, o error de validation cruzada, es 

1 n 

— ^ | (5., | = 0.1489 segundos, 

13 i= l 

que es pequeno comparado con el tiempo de vuelo promedio para los 13 lanza- 
dores. 

En la section 12.9 se indica que cuando se busca el modelo mejor, con frecuencia 
es aconsejable utilizar todos los subconjuntos posibles de regresion. Los paquetes de 
software para estadistica mas conocidos contiene una rutina de todas las regresiones 
posibles. Tales algoritmos calculan di versos criterios para todos los subconjuntos de 
terminos del modelo. Es evidente que criterios como R 2 , s 2 y press son razonables 
para elegir entre subconjuntos de candidates. Otro estadistico muy popular y util, 
en particular para areas de las ciencias fisicas e ingenieri'a, es el estadistico C p , que 
se describe a continuation. 



12.11 Validation cruzada, x v y otros criterios para la selection del modelo 


493 


Tabla 12.13: Comparacion de diferentes modelos de regresion 


Modelo 

s 2 

EN 

PRESS 

R 2 

x 2 x 5 

0.036907 

1.93583 

0.54683 

0.871300 

X 4 X 2 X 5 

0.041001 

2.06489 

0.58998 

0.871321 

X 2 X 4 X 5 

0.037708 

2.18797 

0.59915 

0.881658 

X 2 X 3 X 5 

0.039636 

2.09553 

0.66182 

0.875606 

X\X 2 X 4 X 3 

0.042265 

2.42194 

0.67840 

0.882093 

XiX 2 X 3 X 5 

0.044578 

2.26283 

0.70958 

0.875642 

X 2 X 3 X 4 Xs 

0.042421 

2.55789 

0.86236 

0.881658 

XlX 3 X 5 

0.053664 

2.65276 

0.87325 

0.831580 

X\X 4 X$ 

0.056279 

2.75390 

0.89551 

0.823375 

XlX 5 

0.059621 

2.99434 

0.97483 

0.792094 

X 2 x 3 

0.056153 

2.95310 

0.98815 

0.804187 

X\X3 

0.059400 

3.01436 

0.99697 

0.792864 

XiX 2 X 3 X 4 X 5 

0.048302 

2.87302 

1.00920 

0.882096 

X 2 

0.066894 

3.22319 

1.04564 

0.743404 

X 3 X 5 

0.065678 

3.09474 

1.05708 

0.770971 

X\X 2 

0.068402 

3.09047 

1.09726 

0.761474 

X 3 

0.074518 

3.06754 

1.13555 

0.714161 

X\X3X 4 

0.065414 

3.36304 

1.15043 

0.794705 

X 2 X 3 X 4 

0.062082 

3.32392 

1.17491 

0.805163 

X 2 X 4 

0.063744 

3.59101 

1.18531 

0.777716 

X\X 2 X3 

0.059670 

3.41287 

1.26558 

0.812730 

X3X 4 

0.080605 

3.28004 

1.28314 

0.718921 

X\X 4 

0.069965 

3.64415 

1.30194 

0.756023 

Xi 

0.080208 

3.31562 

1.30275 

0.692334 

XiX 3 X 4 X5 

0.059169 

3.37362 

1.36867 

0.834936 

X\X 2 X 4 

0.064143 

3.89402 

1.39834 

0.798692 

X 3 X 4 X 5 

0.072505 

3.49695 

1.42036 

0.772450 

X 4 X 2 X 3 X 4 

0.066088 

3.95854 

1.52344 

0.815633 

x 5 

0.111779 

4.17839 

1.72511 

0.571234 

X 4 x$ 

0.105648 

4.12729 

1.87734 

0.631593 

x 4 

0.186708 

4.88870 

2.82207 

0.283819 


El estadfstico C p 

Es muy frecuente que la selection del modelo mas adecuado implique muchas con- 
sideraciones. Evidentemente, es importante el mimero de terminos del modelo; el 
tema de la parsimonia es una consideration que no debe ignorarse. Por otro lado, 
el analista no quedarfa satisfecho con un modelo que sea demasiado simple, hasta el 
punto en que hubiera una simplification excesiva. En este sentido, un estadfstico 
unico que representa un compromiso aceptable es C p . (Vease la referencia a Mallo- 
ws, en la bibliograffa.) 

El estadfstico C v parece agradable al sentido comun y se desarrolla a partir de 
consideraciones del compromiso apropiado entre el sesgo excesivo, en que se incurre 
cuando se subajusta (se eligen muy pocos terminos para el modelo), y la varianza 
excesiva de la prediction que se genera cuando se sobreajusta (hay redundances en 
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Estadi'stico C p 


Tabla 12.14: Residuos press 


Pateador 

y^ 

m 

e i =Vi - Vi 

hii 

Si 

1 

4.750 

4.470 

0.280 

0.198 

0.349 

2 

4.070 

3.728 

0.342 

0.118 

0.388 

3 

4.040 

4.094 

-0.054 

0.444 

-0.097 

4 

4.180 

4.146 

0.034 

0.132 

0.039 

5 

4.350 

4.307 

0.043 

0.286 

0.060 

6 

4.160 

4.281 

-0.121 

0.250 

-0.161 

7 

4.430 

4.515 

-0.085 

0.298 

-0.121 

8 

3.200 

3.184 

0.016 

0.294 

0.023 

9 

3.020 

3.174 

-0.154 

0.301 

-0.220 

10 

3.640 

3.636 

0.004 

0.231 

0.005 

11 

3.680 

3.687 

-0.007 

0.152 

-0.008 

12 

3.600 

3.553 

0.047 

0.142 

0.055 

13 

3.850 

4.196 

-0.346 

0.154 

-0.409 


el modelo). El estadi'stico C p es una funcion sencilla del numero total de parametros 
en el modelo candidato y el error cuadratico medio s 2 . 

Aqui no se presentara el desarrollo completo del estadi'stico C p . (Para mayores 
detalles, se recomienda que el lector consulte el libro de texto de Myers que se cita en 
la bibliografia.) El C p para un subconjunto particular de modelos es una estimacion 
de lo siguiente : 


r (p) = — E Var (y*) + 2 E( Ses g° &) 2 - 


i = 1 


i—1 


Se descubre que, con las suposiciones estandar de los minimos cuadrados que se in- 
dicaron con anterioridad en este capitulo, y si se supone que el modelo “verdadero” 
es aquel que contiene todas las variables candidatas, 


1 

^2 EVar(&) 


= P 


(numero de parametros en el modelo candidato) 


(vease el ejercicio de repaso 12.61) y un estimador insesgado de 


■ ^^(Sesgo iji) 2 esta dado por — ^^(Sesgo yi ) 2 = ^ — . 


i= 1 


i = 1 


En estas, s 2 es el error cuadratico medio para el modelo candidato, y cr 2 es la va- 
rianza del error de la poblacion. Asi, si se supone que se dispone de algun estimador 
para d 2 , entonces C p esta dado por 


^ , (s 2 -d 2 ){n-p) 

v-p — p i T5 5 

cr z 

donde p es el numero de parametros en el modelo, s 2 es el error cuadratico medio 
para el modelo candidato, y d 2 es un estimador de a 2 . 
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Tabla 12.15: Datos para el ejemplo 12.14 


Distrito 

Cuentas 

promocionales, x\ 

Cuentas 
activas, X 2 

Marcas en 
competencia, X 3 

Potencial, 

X 4 

Ventas, y 
(miles) 

1 

5.5 

31 

10 

8 

$ 79.3 

2 

2.5 

55 

8 

6 

200.1 

3 

8.0 

67 

12 

9 

163.2 

4 

3.0 

50 

7 

16 

200.1 

5 

3.0 

38 

8 

15 

146.0 

6 

2.9 

71 

12 

17 

177.7 

7 

8.0 

30 

12 

8 

30.9 

8 

9.0 

56 

5 

10 

291.9 

9 

4.0 

42 

8 

4 

160.0 

10 

6.5 

73 

5 

16 

339.4 

11 

5.5 

60 

11 

7 

159.6 

12 

5.0 

44 

12 

12 

86.3 

13 

6.0 

50 

6 

6 

237.5 

14 

5.0 

39 

10 

4 

107.2 

15 

3.5 

55 

10 

4 

155.0 


Es evidente que el cientffico deberia adoptar modelos con valores pequenos de 
C p . El lector tiene que observar que, a cliferencia del estadfstico press, C p esta libre 
de escala. Ademas, se puede obtener alguna perspectiva respecto de lo adecuado de 
un modelo candidato observando el valor de su C p . Por ejemplo, C p > p indica un 
modelo sesgado clebido a que esta subajustado; mientras que C p ss p indica un mo- 
delo razonable. 

Con frecuencia hay confusion acerca de donde proviene d 2 en la formula para C p . 
Es notorio que el cientffico o ingeniero no tienen acceso a la cantidad <j 2 de la pobla- 
cion. En aplicaciones donde se dispone de corridas repetidas, digamos en situaciones 
de diseho experimental, se dispone de un estimador de a 2 independiente del modelo 
(veanse los capftulos 11 y 15). Sin embargo, la mayorfa de los paquetes de software 
utilizan d 2 como el error cuadrdtico medio del modelo mas completo. Evidentemen- 
te si este no es un estimador bueno, la portion de sesgo del estadfstico C p puede ser 
negativa. Asf, C p llega a ser menor que p. 


Ejemplo 12.14:1 Considere el conjunto de datos de la tabla 12.15, en los cuales un fabricante de grava 
asfaltica se interesa en la relation entre las ventas durante un ano especffico y los 
factores que influyen en ellas. (Los datos estan tornados de Neter, Wassermann y 
Kutner; vease la bibliograffa.) 

De los modelos de subconjuntos posibles, hay tres que revisten interes especial. 
Estos tres son los de X 2 X 3 , X 3 X 2 X 3 y X 1 X 2 X 3 X 4 . A continuation se presenta la infor- 
mation pertinente para comparar los tres modelos. Con el objetivo de ayudar a la 
toma de decisiones se incluyen los estadfsticos press de los tres modelos. 


Modelo 

R 2 

d 2 

^pred 

s 2 

PRESS 

c p 

X2X3 

0.9940 

0.9913 

44.5552 

782.1896 

11.4013 

X!X 2 X 3 

0.9970 

0.9928 

24.7956 

643.3578 

3.4075 

X1X2X3X4 

0.9971 

0.9917 

26.2073 

741.7557 

5.0 
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Dependent Variable: sales 
Number in Adjusted 


Model 

C(p) 

R-Square 

R-Square 

MSE 

Variables in Model 

3 

3.4075 

0.9970 

0.9961 

24.79560 

xl 

x2 

x3 

4 

5.0000 

0.9971 

0.9959 

26.20728 

xl 

x2 

x3 x4 

2 

11.4013 

0.9940 

0.9930 

44.55518 

x2 

x3 


3 

13.3770 

0.9940 

0.9924 

48 . 54787 

x2 

x3 

x4 

3 

1053.643 

0.6896 

0.6049 

2526.96144 

xl 

x3 

x4 

2 

1082.670 

0.6805 

0.6273 

2384.14286 

x3 

x4 


2 

1215.316 

0.6417 

0.5820 

2673.83349 

xl 

x3 


1 

1228.460 

0.6373 

0.6094 

2498.68333 

x3 



3 

1653.770 

0.5140 

0.3814 

3956.75275 

xl 

x2 

x4 

2 

1668.699 

0.5090 

0.4272 

3663.99357 

xl 

x2 


2 

1685.024 

0.5042 

0.4216 

3699.64814 

x2 

x4 


1 

1693.971 

0.5010 

0.4626 

3437.12846 

x2 



2 

3014.641 

0.1151 

-.0324 

6603.45109 

xl 

x4 


1 

3088.650 

0.0928 

0.0231 

6248.72283 

x4 



1 

3364.884 

0.0120 

- . 0640 

6805.59568 

xl 




Figura 12.6: Salida del SAS de todos los subconjuntos posibles sobre los datos de las ventas 
para el ejemplo 12.14. 


De la informacion de la tabla, parece claro que el modelo aqaqaq es preferible 
sobre los otros dos. Observe que para el modelo complete, C v = 5.0. Esto ocurre 
porque la porcion de sesgo es igual a cero, yd 2 — 26.2073 es el error cuadratico 
medio del modelo complete. 

La figura 12.6 es una salida anotada del SAS proc reg que muestra informacion 
sobre todas las regresiones posibles. De ahf es posible hacer comparaciones de otros 
modelos con (aq, X2, X3). Observe que (aq, aq, X3) parece muy bueno en comparacion 
con todos los modelos. 

Como verification final del modelo (aq, aq, 3 : 3 ), la figura 12.7 presenta una grafica 
de probabilidad normal de los residuos del modelo. 


Ej ercicios 


12.47 Considere el “tiempo de vuelo” para los datos 
del despeje que se dan en el ejemplo 12.13, utilizando 
solo las variables X2 y 13. 

a) Verifique la ecuacion de regresion que se presenta en 
la pagina 492. 

b) Prediga el tiempo de vuelo para el pateador con lls = 
180 libras y potencia = 260 pies-libras. 

c) Construya un intervalo de confianza de 95% para el 
tiempo de vuelo medio de un pateador con lls = 180 
libras y potencia = 260 pies-libras. 

12.48 Para los datos del ejercicio 12.11 de la pagina 
454, utilice las tecnicas de 


a) seleccion hacia delante con un nivel de significancia 
de 0.05 para elegir un modelo de regresion lineal; 

b ) eliminacion hacia atras con un nivel de significan- 
ce de 0.05 para seleccionar un modelo de regresion 
lineal; 

c) regresion progresiva con un nivel de significancia de 
0.05, para escoger un modelo de regresion lineal. 

12.49 Eniplee las tecnicas de eliminacion hacia atras 
con a = 0.05 para elegir una ecuacion de prediction 
para los datos de la tabla 12.8. 
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Figura 12.7: Grafica de la probabilidad normal de los residuos, utilizando el modelo 
X 1 X 2 X 3 para el ejemplo 12.14. 


12.50 Para los datos del pateador del ejemplo 12.13, 
tambien se registro una respuesta adicional, la “distan- 
cia de pateo” . Los siguientes son los valores de distancia 
promedio para cada uno de los 13 pateadores: 

Pateador Distancia, y (pies) 


1 

162.50 

2 

144.00 

3 

147.50 

4 

163.50 

5 

192.00 

6 

171.75 

7 

162.00 

8 

104.93 

9 

105.67 

10 

117.59 

11 

140.25 

12 

150.17 

13 

165.16 


a) Con los datos de distancia en vez de los de tiempo 
de vuelo, estime un modelo de regresion lineal mul- 
tiple del tipo 

f-^Y \xi ,X2 ,®3 ,# 4 , £5 

= /So + PlXl + P2X2 + P3X3 + P 4*4 + @5X5 
para predecir la distancia del despeje. 

b) Utilice regresion progresiva con un nivel de signifi- 
cancia de 0.10 para seleccionar una combinacion de 
variables. 

13 

c) Genere valores para s 2 , R 2 , press y ^ |&| para todo 

i— 1 

el conjunto de 31 modelos. Utilice esta information 


para determinar la mejor combinacion de varia- 
bles para predecir la distancia del despeje. 

d ) Para el modelo final que seleccione, grafique los re- 
siduos estandarizados contra Y y elabore una grafica 
de probabilidad normal de los residuos ordinarios. 
Haga comentarios. 

12.51 El siguiente es un conjunto de datos para y, 
la cantidad de dinero (miles de dolares) aportados a la 
asociacion de alumnos del Virginia Tech, por la Clase 
de 1960; y para x, el numero de anos posteriores a la 
graduation: 


y 

X 

y 

X 

812.52 

1 

2755.00 

11 

822.50 

2 

4390.50 

12 

1211.50 

3 

5581.50 

13 

1348.00 

4 

5548.00 

14 

1301.00 

8 

6086.00 

15 

2567.50 

9 

5764.00 

16 

2526.50 

10 

8903.00 

17 


a) Ajuste un modelo de regresion del tipo 

Mv \x = Po + Pix. 

b) Ajuste un modelo cuadratico del tipo 

Vy\x = Po + Pix + Pnx 2 . 

c) Determine cual de los modelos de los incisos a) o b) 
es preferible. Utilice s 2 , R 2 y los residuos press para 
apoyar su decision. 
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12.52 Para el modelo del ejercicio 12.50a), pruebe la 
hipotesis 

Ho'- @4 = 0 
Hr- 04 0 

Utilice un valor P para su conclusion. 

12.53 Para el modelo cuadratico del ejercicio 12.516), 
proporcione estimadores de las varianzas y las cova- 
rianzas de los estimadores de /3i y /3n- 

12.54 En un esfuerzo para modelar las remuneracio- 
nes de los ejecutivos en el ano de 1979, se seleccionaron 
33 empresas y se recabaron datos acerca de remunera- 
ciones, ventas, ganancias y empleo. Considere el mo- 
delo 

Vi =do + di lnxi i + /3 2 lnx 2 j 

+ /3 3 lna? 3 i + e», i = 1,2,..., 33. 

а) Ajuste la regresion con el modelo anterior. 

б) ^Es un modelo con un subconjunto de las variables 
preferible al modelo completo? 


Empresa 

Compen- 
sation, y 

(miles) 

Ventas, Ganancias, 
Xi , x 2 , 

(millones) (millones) 

Empleo, 

x 3 

1 

$450 

$4, 600.6 

$128.1 

48, 000 

2 

387 

9,255.4 

783.9 

55,900 

3 

368 

1,526.2 

136.0 

13, 783 

4 

277 

1,683.2 

179.0 

27, 765 

5 

676 

2,752.8 

231.5 

34, 000 

6 

454 

2,205.8 

329.5 

26, 500 

7 

507 

2,384.6 

381.8 

30, 800 

8 

496 

2, 746.0 

237.9 

41,000 

9 

487 

1,434.0 

222.3 

25,900 

10 

383 

470.6 

63.7 

8,600 

11 

311 

1,508.0 

149.5 

21,075 

12 

271 

464.4 

30.0 

6,874 

13 

524 

9,329.3 

577.3 

39, 000 

14 

498 

2,377.5 

250.7 

34, 300 

15 

343 

1, 174.3 

82.6 

19, 405 

16 

354 

409.3 

61.5 

3,586 

17 

324 

724.7 

90.8 

3,905 

18 

225 

578.9 

63.3 

4, 139 

19 

254 

966.8 

42.8 

6,255 

20 

208 

591.0 

48.5 

10, 605 

21 

518 

4,933.1 

310.6 

65,392 

22 

406 

7,613.2 

491.6 

89, 400 

23 

332 

3,457.4 

228.0 

55,200 

24 

340 

545.3 

54.6 

7,800 

25 

698 

22,862.8 

3011.3 

337, 119 

26 

306 

2,361.0 

203.0 

52,000 

27 

613 

2,614.1 

201.0 

50, 500 

28 

302 

1,013.2 

121.3 

18,625 

29 

540 

4,560.3 

194.6 

97, 937 

30 

293 

855.7 

63.4 

12,300 

31 

528 

4,211.6 

352.1 

71,800 

32 

456 

5, 440.4 

655.2 

87, 700 

33 

417 

1,229.9 

97.5 

14, 600 


12.55 La blancura del rayon es un factor importante 
para los cientfficos que estudian la calidad de las telas. 
La blancura se ve afectada por la calidad de la pulpa 
y otras variables de procesamiento. Algunas de estas 
incluyen la temperatura del bano con acido, °C (xi); 
concentration del acido en cascada, % (X 2 ); tempera- 
tura del agua, °C (X3); concentration del sulfuro, % 
(X4); cantidad del blanqueador de cloro, lb/min (X5); la 
temperatura de termination de la tela, °C ( xq ). A con- 
tinuation se da un conjunto de datos de especmienes de 
rayon. La respuesta, y , es la medicion de la blancura. 

а) Utilice los criterios mse , Cp y press para dar el mejor 
modelo del subconjunto de todos los modelos. 

б) Grafique los residuos estandarizados contra Y y haga 
una grafica de probabilidad normal de los residuos 
para el “mejor” modelo. Comente los resultados. 


y xi 

X 2 

x 3 

X4 

X 5 

Xq 

88.7 43 

0.211 

85 

0.243 

0.606 

48 

89.3 42 

0.604 

89 

0.237 

0.600 

55 

75.5 47 

0.450 

87 

0.198 

0.527 

61 

92.1 46 

0.641 

90 

0.194 

0.500 

65 

83.4 52 

0.370 

93 

0.198 

0.485 

54 

44.8 50 

0.526 

85 

0.221 

0.533 

60 

50.9 43 

0.486 

83 

0.203 

0.510 

57 

78.0 49 

0.504 

93 

0.279 

0.489 

49 

86.8 51 

0.609 

90 

0.220 

0.462 

64 

47.3 51 

0.702 

86 

0.198 

0.478 

63 

53.7 48 

0.397 

92 

0.231 

0.411 

61 

92.0 46 

0.488 

88 

0.211 

0.387 

88 

87.9 43 

0.525 

85 

0.199 

0.437 

63 

90.3 45 

0.486 

84 

0.189 

0.499 

58 

94.2 53 

0.527 

87 

0.245 

0.530 

65 

89.5 47 

0.601 

95 

0.208 

0.500 

67 

12.56 Un cliente del Departamento de Ingenierfa Meca- 
nica se acerco al Centro de Consulta del Instituto Politecni- 

co y Universidad Estatal de Virginia, para que lo ayudaran 
a analizar un experimento sobre motores de turbina de 

gas. Se midieron 

varias 

salidas del voltaje de los motores 

con distintas combinaciones de velocidad de las aspas y del 

voltaje que niide la extension de los 

sensores. 

Los datos 

son los siguientes: 





y 

Velocidad 

, Xi 

Extension, 

(voltios) 

(P 

ulg/se 

g) 

x 2 (pulg) 

1.95 


6336 


0.000 


2.50 


7099 


0.000 


2.93 


8026 


0.000 


1.69 


6230 


0.000 


1.23 


5369 


0.000 


3.13 


8343 


0.000 


1.55 


6522 


0.006 


1.94 


7310 


0.006 


2.18 


7974 


0.006 


2.70 


8501 


0.006 


1.32 


6646 


0.012 


1.60 


7384 


0.012 


1.89 


8000 


0.012 
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y Velocidad, x\ Extension, 


(voltios) 

(pulg/seg) 

£2 (pulg) 

2.15 

8545 

0.012 

1.09 

6755 

0.018 

1.26 

7362 

0.018 

1.57 

7934 

0.018 

1.92 

8554 

0.018 

a) Haga un ajuste de regresion 

lineal multiple 


datos. 


b) Calcule las pruebas t sobre los coeficientes. Propor- 
cione valores F. 

c) Diga sus comentarios sobre la calidad del modelo 
ajustado. 

12.57 La resistencia a la traction de una union de 
alambre es una caracteristica importante. La siguien- 
te tabla brinda information sobre la resistencia a la 
traction y, la altura del molde xi, la altura del perno 
X 2 , altura del lazo £3, longitud del alambre £4, ancho 
de la union sobre el molde £5 y ancho del molde sobre 
el perno xq. [Datos tornados de Myers y Montgomery 
( 2002 ).] 


y 

£1 

£2 

£3 

X4 

£5 

Xq 

8.0 

5.2 

19.6 

29.6 

94.9 

2.1 

2.3 

8.3 

5.2 

19.8 

32.4 

89.7 

2.1 

1.8 

8.5 

5.8 

19.6 

31.0 

96.2 

2.0 

2.0 

8.8 

6.4 

19.4 

32.4 

95.6 

2.2 

2.1 

9.0 

5.8 

18.6 

28.6 

86.5 

2.0 

1.8 

9.3 

5.2 

18.8 

30.6 

84.5 

2.1 

2.1 

9.3 

5.6 

20.4 

32.4 

88.8 

2.2 

1.9 

9.5 

6.0 

19.0 

32.6 

85.7 

2.1 

1.9 

9.8 

5.2 

20.8 

32.2 

93.6 

2.3 

2.1 

10.0 

5.8 

19.9 

31.8 

86.0 

2.1 

1.8 

10.3 

6.4 

18.0 

32.6 

87.1 

2.0 

1.6 

10.5 

6.0 

20.6 

33.4 

93.1 

2.1 

2.1 

10.8 

6.2 

20.2 

31.8 

83.4 

2.2 

2.1 

11.0 

6.2 

20.2 

32.4 

94.5 

2.1 

1.9 

11.3 

6.2 

19.2 

31.4 

83.4 

1.9 

1.8 

11.5 

5.6 

17.0 

33.2 

85.2 

2.1 

2.1 

11.8 

6.0 

19.8 

35.4 

84.1 

2.0 

1.8 

12.3 

5.8 

18.8 

34.0 

86.9 

2.1 

1.8 

12.5 

5.6 

18.6 

34.2 

83.0 

1.9 

2.0 


a) Ajuste un modelo de regresion usando todas las va- 
riables independientes. 

b) Use regresion progresiva con un nivel de significan- 
cia de entrada de 0.25 y un nivel de significancia de 
0.05 para la remocion. Proporcione el modelo final. 

c) Utilice todos los modelos de regresion posibles y calcu- 
le R 2 . C p , s 2 y R 2 ajustada, para todos los modelos. 

d) De el modelo final. 

e) Para el modelo del inciso d), grafique los residuos 
studentizados (o la R de Student) y haga comenta- 
rios al respecto. 

12.58 Para el ejercicio 12.57, pruebe Ho: /3i = (3e = 0. 

Proporcione valores P y haga sus comentarios. 


12.59 En el ejercicio 12.28 de la pagina 464, se tienen 
los datos siguientes sobre el uso de un rodamiento: 


y (uso) 

£1 (viscosidad del aceite) 

£2 (carga) 

193 

1.6 

851 

230 

15.5 

816 

172 

22.0 

1058 

91 

43.0 

1201 

113 

33.0 

1357 

125 

40.0 

1115 

a) Puede considerar el siguiente modelo para describir 


los datos: 


Vi = Po + PlXli + P 2 X 2 i + Pl2X\iX2i + U, 


para i = 1, 2, . . . , 6. El termino £i £2 es de “interac- 
tion” . Ajuste este modelo y estime los parametros. 

b) Utilice los modelos (£ 1 ), (£ 1 , £ 2 ), (£ 2 ), (£ 1 , £ 2 , £ 1 * 2 ) 
y calcule press, C p , y s 2 para determinar el “mejor” 
modelo. 


12.12 Modelos especiales no lineales para condiciones no ideales 

En gran parte del material anterior de este capftulo y del 11 hemos tenido muchos 
beneficios por la suposicion de que los errores del modelo, los €i, tienen distribution 
normal con media igual a cero y varianza constante a 1 . Sin embargo, hay muchas 
situaciones de la vida real en las cuales es evidente que la respuesta no es normal. 
Por ejemplo, existen aplicaciones donde la respuesta es binaria (0 o 1) y, por ello, 
su naturaleza es de Bernoulli. En las ciencias sociales el problema seria desarrollar 
un modelo que prediga si un individuo representa riesgos para un credito o no (0 o 1), 
como funcion de ciertos regresores socioeconomicos como ingreso, edad, genero y 
nivel academico. En una prueba biomedica para un farmaco, es frecuente que el pa- 
ciente responda favorablemente o no a cierto medicamento, en tanto que los regreso- 
res incluyen la dosis y factores biologicos como edad, peso y presion sangumea. Otra 



500 


Capitulo 12 Regresion lineal multiple y ciertos modelos de regresion no lineal 


vez, la respuesta es de naturaleza binaria. Las aplicaciones tambien son abundantes 
en las areas de manufactura en que ciertos factores controlables influyen para decidir 
si cierto artfculo fabricado esta defectuoso o no. 

Un segundo tipo de aplicacion que no es normal y del que haremos una mention 
breve tiene que ver con el control de datos. Aqul, con frecuencia es conveniente 
suponer una respuesta de Poisson. En aplicaciones biomedicas, el numero de colonias 
de celulas cancerosas es la respuesta que se modela contra las closis de medicamen- 
tos. En la industria textil, el numero de imperfecciones por yarda de tela es una 
respuesta razonable que se modela contra ciertas variables de los procesos. 

Varianza no homogenea 

El lector cleberfa notar la comparacion de la situation ideal (es decir, la respues- 
ta normal) con aquella de la respuesta de Bernoulli (o binomial) o la de Poisson. 
Estamos acostumbrados al hecho de que el caso normal es muy especial en que la 
varianza es independiente de la media. Resulta claro que este no es el caso para 
las respuestas de Bernoulli ni de Poisson. Por ejemplo, si la respuesta es 0 o 1, lo cual 
sugiere una respuesta de Bernoulli, entonces el modelo es de la forma 

P = /(*, 0 ), 

donde p es la probabilidad de exito (por ejemplo, la respuesta = 1). El parametro 
p juega el papel de gy\x en el caso normal. Sin embargo, la varianza de Bernoulli es 
p{ 1 — p) que, desde luego, tambien es funcion del regresor x. Como resultado, la va- 
rianza no es constante. Estas reglas utilizan los mmirnos cuadrados estandar que se 
han utilizado en nuestro trabajo de regresion lineal hasta este momento. Lo mismo 
se aplica para el caso de Poisson, ya que el modelo es de la forma 


A = /( x, (3), 


con Var (y) = p y = A, que varia con x. 


Respuesta binaria (regresion logfstica) 

El enfoque mas popular para modelar respuestas binarias es la tecnica llamada re- 
gresion logfstica. Se emplea mucho en las ciencias biologicas, en la investigation 
biomedica y en la ingenierfa. Pero incluso en las ciencias sociales se encuentra que 
las respuestas binarias son de abundantes. La distribution basica para la respuesta 
es la de Bernoulli o la binomial. La primera se encuentra en estudios observacionales 
donde no hay corridas repetidas en cada nivel de regresor; mientras que la segunda 
sera el caso cuando se utilice un diseho experimental. Por ejemplo, en un ensayo 
clfnico en el cual se evalue un farmaco nuevo, el objetivo serfa determinar la closis 
del medicamento que es eficaz. Asf, en el experimento se utilizaran ciertas dosis y 
para cada una de ellas se emplearan a varios sujetos. Este caso se denomina caso 
agrupado. 

^Cual es el modelo para la regresion logfstica? 

En el caso de respuestas binarias, la respuesta media es una probabilidad. En la ilus- 
tracion clfnica anterior, puede decirse que se desea estimar la probabilidad de que el 
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paciente responda en forma positiva al farmaco (P(exito)). Entonces, el modelo se 
escribe en terminos cle una probabilidad. Dados los regresores x , la funcion logistica 
esta dada por 

P ~ 1 + e _x '' 3 ’ 

La portion x'j3 se llama predictor lineal y, en el caso de un solo regresor x, puede 
escribirse x'/3 = (3o + /3iX. Por supuesto, en el llamado predictor lineal no se trabaja 
con regresores multiples y terminos polinomiales. En el caso agrupado, el modelo 
implica el modelado de la media de una binomial en vez de una de Bernoulli, por lo 
que se tiene la media dada por 

n 


Caracterfsticas de la funcion logistica 

Una grafica de la funcion logistica revela mucho sobre sus caracterfsticas y del por- 
que se utiliza para este tipo de problema. En primer lugar, la funcion es no lineal. 
Ademas, la grafica de la figura 12.8 revela la forma de S con la funcion que tiende 
a la asfntota en p = 1.0. En este caso, /3\ > 0. Asi, nunca se experimentaria una 
probabilidad estimada mayor que 1.0. 

P 



Figura 12.8: La funcion logistica. 


Los coeficientes de regresion en el predictor lineal se estiman con el metodo de 
maxima verosimilitud segun se describe en el capftulo 9. La solution de las ecuacio- 
nes de verosimilitud requiere una metodologia iterativa que no veremos aquf. Sin 
embargo, presentaremos un ejemplo y analizaremos la salida por computadora y las 
conclusiones. 

Ejemplo 12.15:1 El conjunto de clatos de la tabla 12.16 es un ejemplo del uso de la regresion logistica 
para analizar un ensayo biologico cuantal de agente unico en un experimento de 
toxicidad. Los resultados muestran el efecto de dosis diferentes de la nicotina sobre 
la mosca comun de la fruta. 

El proposito del experimento fue utilizar la regresion logistica para llegar a un 
modelo adecuado que relacionara la probabilidad de “muerte” con la concentration. 
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Tabla 12.16. Conjunto de datos para el ejemplo 12.15 


X 

Concentration 
(gramos/100 cc) 

«i* 

Numero 
de insectos 

y 

Numero 
de muertes 

~k 

Porcentaje 
de muertes 

0.10 

47 

8 

17.0 

0.15 

53 

14 

26.4 

0.20 

55 

24 

43.6 

0.30 

52 

32 

61.5 

0.50 

46 

38 

82.6 

0.70 

54 

50 

92.6 

0.95 

52 

50 

96.2 


Ademas, el analista buscaba la denominada dosis eflcaz (de), es decir, la concen- 
tration de nicotina que da como resultado cierta probabilidad. La DE 50 tiene interes 
particular, ya que es la concentration que produce una probabilidad de 0.5 de que 
el “insecto muera” . 

Este ejemplo se agrupa, por lo que el modelo esta dado por 


E(Yi) = riiPi = 


rij 

l _|_ e -(Po + 0lXi) ' 


Los estimadores de /3q y pi y sus errores estandar se encuentran usando el metodo de 
maxima verosimilitud. Las pruebas sobre los coeficientes individuales se encuentran 
con el estadfsticos y 2 en vez de t, puesto que no hay una varianza comun er 2 . El esta- 
cltstico x 2 se obtiene a partir de ( error c e ° s a n dar ) ■ 

Asf, se llega a la siguiente salida de sas prog logist. 




Analisis de los estimadores de los parametros 


df 

Estimador Error estandar Chi-cuadrada 

Valor P 

Po 

1 

-1.7361 0.2420 51.4482 

< 0.0001 

Pi 

1 

6.2954 0.7422 71.9399 

< 0.0001 


Ambos coeficientes son significativamente distintos de cero. Por lo que el modelo 
ajustado que se emplea para predecir la probabilidad de “muerte” esta dado por 

1 

P ~ l + e -(-l. 7361+6. 2954x) ' 


Estimacion de la dosis eficaz 

El estimador de la DE 50 se encuentra de forma muy sencilla a partir del estimador 60 
para f3o y b\ para f3\. Con la funcion logfstica se observa que 

log = Po + Pi x - 

Como resultado, para p = 0.5, se halla un estimador de x a partir de 


bo + b\x = 0 . 
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Asi, la de 50 esta dada por 



= 0.276 gramos/100 cc. 


Concepto de razon de probabilidad 

Otra forma de inferencia que se lleva a cabo de manera conveniente con la regresion 
logi'stica se obtiene del uso de la razon de probabilidad, la cual esta disenada para 
determinar como se incrementa la razon de probabilidad = conforme ocu- 
rren cambios en los valores del regresor. Por ejemplo, en el caso del ejemplo 12.15, 
quiza se deseara saber como se incrementan las probabilidades si se incrementara la 
dosis en, digamos, 0.2 gramos/100 cc. 


Definicion 12.1: 


En la regresion logi'stica, una razon de probabilidad es la razon de la probabi- 
lidad de exito en la condicion 2 a la de la condicion 1 en los regresores, es clecir, 

[p/(! -p)h 

\p/( l ~p)V 


Esto permite que el analista tenga un sentido de la utilidad al cambiar el regresor en 
cierto mimero de unidades. Ahora, como ( 137 ) = e^ 0+ ^ lX , entonces para el ejemplo 
12.15, la razon que rcflcja el incremento de las probabilidades de exito cuando au- 
menta la dosis de nicotina en 0.2 gramos/100 cc, esta dada por 

e 0.2 hi = e (0.2)(6.2954) = 3 522 

La implication de que una razon de probabilidades sea de 3.522 es que la probabi- 
lidad de exito mejora en un factor de 3.522 cuando la dosis de nicotina aumenta en 
0.2 gramos/100 cc. 
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12.60 En el Departamento de Pesca y Vida Silves- 
tre en el Instituto Politecnico y Universidad Estatal 
de Virginia, se realizo un experimento para estudiar 
el efecto de las caracteristicas de la corriente sobre la 
biomasa de los peces. Las variables regresoras son las 
siguientes: profundidad promedio (de 50 celdas) (* 1 ); 
area de la cubierta en la corriente (es decir, riberas 
socavadas, troncos, cantos rodados, etcetera) (* 2 ); cu- 
bierta porcentual de material translucido (promedio de 
12) (* 3 ); area > 25 centimetres en profundidad (* 4 ). 
La respuesta es y, la biomasa de los peces. Los datos 
son los siguientes: 


Obs. 

y 

Xl 

X2 

X 3 

X4 

1 

100 

14.3 

15.0 

12.2 

48.0 

2 

388 

19.1 

29.4 

26.0 

152.2 

3 

755 

54.6 

58.0 

24.2 

469.7 

4 

1288 

28.8 

42.6 

26.1 

485.9 

5 

230 

16.1 

15.9 

31.6 

87.6 

6 

0 

10.0 

56.4 

23.3 

6.9 

7 

551 

28.5 

95.1 

13.0 

192.9 

8 

345 

13.8 

60.6 

7.5 

105.8 


Obs. y x,\ X 2 x-i x.\ 

9 0 107 302 403 OtT 

10 348 25.9 52.0 40.3 116.6 

a) Ajuste una regresion lineal multiple que incluya las 
cuatro variables regresoras. 

b ) Utilice C p , R 2 y s 2 para determinar el mejor subcon- 
junto de variables. Calcule dichos estadfsticos para 
todos los subconjuntos posibles. 

c) Compare lo adecuado de los modelos de los incisos 
a) y 6 ), para efectos de predecir la biomasa de los 
peces. 

12.61 Demuestre que, en un conjunto de datos de regre- 
sion lineal multiple, 


X) = P- 

i-1 
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12.62 Se efectuo un experimento sencillo para ajus- 
tar una ecuacion de regresion multiple que relaciona al 
producto y con la temperatura xi, el tiempo de reac- 
tion X2 y la concentration de uno de los reactivos £3. 
Se eligieron dos niveles de cada variable y se hicieron 
mediciones correspondientes a las variables indepen- 
dientes definidas, como sigue: 


y 

Xl 

*2 

*3 

7.6 

-1 

-1 

-1 

5.5 

1 

-1 

-1 

9.2 

-1 

1 

-1 

10.3 

-1 

-1 

1 

11.6 

1 

1 

-1 

11.1 

1 

-1 

1 

10.2 

-1 

1 

1 

14.0 

1 

1 

1 


a) Con las variables definidas, estime la ecuacion de 
regresion lineal multiple 

Py\ x 1 ,x 2 ,x 3 = do + P1X1 + P2X2 + @3X3- 

b) Haga la partition de SSR, la suma cuadratica de la re- 
gresion, en tres componentes de un grado de libertad 
atribuibles a X\, £2 y *3, respectivamente. Construya 
una tabla de analisis de varianza donde se indiquen 
pruebas de significancia sobre cada variable. Co- 
mente los resultados. 

12.63 En un experimento de ingenierfa qufmica que 
tiene que ver con la transferencia de calor en una capa 
de fluido superficial, se recabaron datos sobre las cua- 
tro variables regresoras siguientes: tasa de flujo del gas 
fluido, lb/hr (*1); tasa de flujo del gas supercaliente, 
lb/hr (*2); abertura de la boquilla de entrada del gas 
supercaliente, milfmetros ( X3 ); temperatura de entrada 
del gas supernatant, °F (* 4 ). Las respuestas medidas 
son la eficacia de la transferencia de calor (2/1); la efica- 
cia termica (2/2)- Los datos son los siguientes: 


Obs . 

2 /i 

2/2 

Xl 

X2 

X3 

X4 

1 

41.852 

38.75 

69.69 

170.83 

45 

219.74 

2 

155.329 

51.87 

113.46 

230.06 

25 

181.22 

3 

99.628 

53.79 

113.54 

228.19 

65 

179.06 

4 

49.409 

53.84 

118.75 

117.73 

65 

281.30 

5 

72.958 

49.17 

119.72 

117.69 

25 

282.20 

6 

107.702 

47.61 

168.38 

173.46 

45 

216.14 

7 

97.239 

64.19 

169.85 

169.85 

45 

223.88 

8 

105.856 

52.73 

169.85 

170.86 

45 

222.80 

9 

99.348 

51.00 

170.89 

173.92 

80 

218.84 

10 

111.907 

47.37 

171.31 

173.34 

25 

218.12 

11 

100.008 

43.18 

171.43 

171.43 

45 

219.20 

12 

175.380 

71.23 

171.59 

263.49 

45 

168.62 

13 

117.800 

49.30 

171.63 

171.63 

45 

217.58 

14 

217.409 

50.87 

171.93 

170.91 

10 

219.92 

15 

41.725 

54.44 

173.92 

71.73 

45 

296.60 

16 

151.139 

47.93 

221.44 

217.39 

65 

189.14 

17 

220.630 

42.91 

222.74 

221.73 

25 

186.08 

18 

131.666 

66.60 

228.90 

114.40 

25 

285.80 

19 

80.537 

64.94 

231.19 

113.52 

65 

286.34 

20 

152.966 

43.18 

236.84 

167.77 

45 

221.72 


Considere el modelo para predecir la respuesta del co- 
eficiente de transferencia de calor 

4 4 

yn ~do + 'y ] fijXjt + YuPijXji 

j = 1 i = 1 

"t~ djlXjiXn -fCi, % — 1 , 2 ,. .., 20 . 

jyi 


a) Calcule press y | yi — yi,~i | para ajustar con re- 

i=l 

gresion por nn'nimos cuadrados al modelo anterior. 

b) Ajuste un modelo de segundo orden con X4 eliirii- 
nada por completo (es decir, elimine todos los ter- 
minos que impliquen * 4 ). Calcule los criterios de 
prediccion para el modelo reducido. Comente sobre 
lo adecuado de £4 para la prediccion del coeficiente 
de transferencia de calor. 

c) Repita los incisos a) y b) para la eficacia termica. 

12.64 En la fisiologfa del deporte, una medicion ob- 
jetiva de la condition ffsica es el consumo de oxfgeno 
en volumen por unidad de peso corporal por unidad de 
tiempo. Se estudiaron 31 individuos en un experimento 
con la finalidad de modelar el consumo de oxfgeno con- 
tra: edad en anos (*1); peso en kilogramos (*2); tiempo 
en que se corre 1.5 millas (*3); tasa del pulso en reposo 
(*4); tasa del pulso al final de la carrera (£5); tasa 
maxima del pulso durante la carrera {xq). 


ID 

y 

Xl 

X2 

£3 

X4 

£5 

Xq 

1 

44.609 

44 

89.47 

11.37 

62 

178 

182 

2 

45.313 

40 

75.07 

10.07 

62 

185 

185 

3 

54.297 

44 

85.84 

8.65 

45 

156 

168 

4 

59.571 

42 

68.15 

8.17 

40 

166 

172 

5 

49.874 

38 

89.02 

9.22 

55 

178 

180 

6 

44.811 

47 

77.45 

11.63 

58 

176 

176 

7 

45.681 

40 

75.98 

11.95 

70 

176 

180 

8 

49.091 

43 

81.19 

10.85 

64 

162 

170 

9 

39.442 

44 

81.42 

13.08 

63 

174 

176 

10 

60.055 

38 

81.87 

8.63 

48 

170 

186 

11 

50.541 

44 

73.03 

10.13 

45 

168 

168 

12 

37.388 

45 

87.66 

14.03 

56 

186 

192 

13 

44.754 

45 

66.45 

11.12 

51 

176 

176 

14 

47.273 

47 

79.15 

10.60 

47 

162 

164 

15 

51.855 

54 

83.12 

10.33 

50 

166 

170 

16 

49.156 

49 

81.42 

8.95 

44 

180 

185 

17 

40.836 

51 

69.63 

10.95 

57 

168 

172 

18 

46.672 

51 

77.91 

10.00 

48 

162 

168 

19 

46.774 

48 

91.63 

10.25 

48 

162 

164 

20 

50.388 

49 

73.37 

10.08 

76 

168 

168 

21 

39.407 

57 

73.37 

12.63 

58 

174 

176 

22 

46.080 

54 

79.38 

11.17 

62 

156 

165 

23 

45.441 

52 

76.32 

9.63 

48 

164 

166 

24 

54.625 

50 

70.87 

8.92 

48 

146 

155 

25 

45.118 

51 

67.25 

11.08 

48 

172 

172 

26 

39.203 

54 

91.63 

12.88 

44 

168 

172 

27 

45.790 

51 

73.71 

10.47 

59 

186 

188 

28 

50.545 

57 

59.08 

9.93 

49 

148 

155 
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ID 

y 

Xl 

X 2 

*3 

X4 

*5 

Xq 

29 

48.673 

49 

76.32 

9.40 

56 

186 

188 

30 

47.920 

48 

61.24 

11.50 

52 

170 

176 

31 

47.467 

52 

82.78 

10.50 

53 

170 

172 


a) Realice una regresion progresiva con un nivel de 
significancia de 0.25 en la entrada. Proporcione el 
modelo final. 

b) Estudie todos los subconjuntos posibles usando s 2 , 
C p , R 2 y R 2 aj u . Tome una decision y determine el 
modelo final. 

12.65 Considere los datos del ejercicio de repaso 
12.62. Suponga que es de interes agregar algunos termi- 
nos de “interaction” . En especffico, considere el modelo 

Vi = 00 + 0lXli + 02X2 i + 03X3 i + /3l2XliX2i 

+ 013XuX 3 i + 023X2iX 3 i + 0123 XiiX 2 iX 3 i + U- 

a) iAiin se tiene ortogonalidad? Comente. 

b) Considerando el modelo ajustado en el inciso a), 
ipuede usted encontrar intervalos de prediction y 
de confianza sobre la respuesta media? ^Por que? 

c) Utilice el modelo con 0123 X 1 X 2 X 3 eliminada. Para 
determinar si son necesarias las interacciones (como 
un todo), pruebe 

Ho- 012 = 013 = 023 = 0. 

De valores P y saque conclusiones. 

12.66 Para extraer petroleo crudo, se utiliza una 
tecnica de inyeccion de dioxido de carbono (CO2). El 
flujo de CO2 envuelve el petroleo y lo desplaza. En el 
experimento, se introducen tubos de flujo en bolsones 
de muestras de petroleo que contienen una cantidad 
conocida de este. Los bolsones de petroleo se inyectan con 
CO2, y se registra el porcentaje de petroleo desplaza- 
do, usando tres valores diferentes de presion del flujo 
y tres valores diferentes de angulos de introduction. 
Considere el modelo 

Hi =00 + 0lXli + 02X2 i + 011 Xu 
+ 022x1 i + 012XliX 2 i + £». 

Ajuste el modelo anterior a los datos y sugiera cual- 
quier modification al modelo que considere necesaria. 

Porcentaje de 

Presion Angulo de recuperation 

lb/pulg2, x\ inyeccion, Xi de petroleo, y 


1000 

0 

60.58 

1000 

15 

72.72 

1000 

30 

79.99 

1500 

0 

66.83 

1500 

15 

80.78 

1500 

30 

89.78 

2000 

0 

69.18 

2000 

15 

80.31 

2000 

30 

91.99 


Fuente: Wang, G. C. “Microscopic Investigations of CO 2 
Flooding Process” , Journal of Petroleum Technology , vol. 34, 
mini. 8, agosto de 1982. 


12.67 Un arti'culo del Journal of Pharmaceutical Scien- 
ces (vol. 80, 1991) presenta datos de la solubilidad de 
una fraction molar de un soluto a temperatura cons- 
tante. Tambien se midio la dispersion, xi, y los para- 
metros de solubilidad del enlace bipolar y de hidrogeno 
X2, y X3. En la tabla siguiente se presenta una parte de 
los datos. En el modelo, y es el logaritmo negativo 
de la fraction molar. Ajuste el modelo 

Vi = 00 + 01 Xu + 02X2 i + 03X3 i + fit, 

para * = 1, 2 , . . . , 20. 

a) Pruebe Ho: 0i = 02 = 03 = 0. 

b) Grafique los residuos studentizados contra xi, X 2 y 
*3 (tres graficas). Haga comentarios. 

c) Considere dos modelos adicionales que son competi- 
dores del modelo anterior: 

Modelo 2: Agregue x\, x\, x 2 

Modelo 3 : Agregue x\, x\, £3, *1*2, *1*3, *2*3. 


Con estos tres modelos utilice press y C p para llegar al 
mejor de los tres. 


Obs. 

y 

Xl 

x 2 

x 3 

1 

0.2220 

7.3 

0.0 

0.0 

2 

0.3950 

8.7 

0.0 

0.3 

3 

0.4220 

8.8 

0.7 

1.0 

4 

0.4370 

8.1 

4.0 

0.2 

5 

0.4280 

9.0 

0.5 

1.0 

6 

0.4670 

8.7 

1.5 

2.8 

7 

0.4440 

9.3 

2.1 

1.0 

8 

0.3780 

7.6 

5.1 

3.4 

9 

0.4940 

10.0 

0.0 

0.3 

10 

0.4560 

8.4 

3.7 

4.1 

11 

0.4520 

9.3 

3.6 

2.0 

12 

0.1120 

7.7 

2.8 

7.1 

13 

0.4320 

9.8 

4.2 

2.0 

14 

0.1010 

7.3 

2.5 

6.8 

15 

0.2320 

8.5 

2.0 

6.6 

16 

0.3060 

9.5 

2.5 

5.0 

17 

0.0923 

7.4 

2.8 

7.8 

18 

0.1160 

7.8 

2.8 

7.7 

19 

0.0764 

7.7 

3.0 

8.0 

20 

0.4390 

10.3 

1.7 

4.2 

12.68 Se realizo un 

estudio para determinar si cam- 

bios en el estilo de vida podrfan sustituir la medication 

para reducir la presion sangumea 

de los individuos hi- 


pertensos. Los factores considerados fueron una die- 
ta saludable con un programa de ejercicios, la dosis 
comun de medicamentos contra la hipertension y la 
no intervention. Tambien se calculo el rndice de masa 
corporal (imc) anterior al tratamiento, debido a que 
se sabe que afecta la presion sangm'nea. La respuesta 
considerada en este estudio 
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Dependent 

Variable: y 







Analysis 

of Variance 







Sum of 

Mean 




Source 

DF 

Squares 

Square 

F Value 

Pr > F 

Model 

5 

490177488 

98035498 

237. 

79 

<.0001 

Error 

11 

4535052 

412277 




Corrected 

Total 16 

494712540 






Root MSE 

642.08838 

R-Square 

0.9908 




Dependent Mean 

4978.48000 

Adj R-Sq 

0.9867 




Coeff Var 

12.89728 







Parameter 

Estimates 







Parameter 

Standard 



Variable 

Label 

DF 

Estimate 

Error t 

Value 

Pr > I t I 

Intercept 

Intercept 

1 

1962.94816 1071.36170 

1.83 

0.0941 

xl 

Average Daily Patient Load 1 

-15.85167 

97.65299 

-0.16 

0 . 8740 

x2 

Monthly X-Ray Exposure 1 

0.05593 

0.02126 

2.63 

0.0234 

x3 

Monthly Occupied Bed Days 1 

1.58962 

3.09208 

0.51 

0.6174 

x4 

Eligible Population 

in the 1 

-4.21867 

7.17656 

-0.59 

0 . 5685 


Area/ 100 






x5 

Average Length of Patients 1 

-394.31412 

209.63954 

-1.88 

0.0867 


Stay in Days 


Figura 12.9: Salida del sas para el ejercicio de repaso 12.69; parte I. 


cambio con la presion sangumea. El grupo de variables 
tiene los siguientes niveles. 

1 = Dieta saludable y programa de ejercicios. 

2 = Medicacion. 

3 = No intervention. 

Cambio en la 


presion sangumea 

Grupo 

IMC 

-32 

1 

27.3 

-21 

1 

22.1 

-26 

1 

26.1 

-16 

1 

27.8 

-11 

2 

19.2 

-19 

2 

26.1 

-23 

2 

28.6 

-5 

2 

23.0 

-6 

3 

28.1 

5 

3 

25.3 

-11 

3 

26.7 

14 

3 

22.3 


a) Ajuste un modelo adecuado utilizando los datos an- 
teriores. ^Pareciera que el ejercicio y la dieta po- 
drian utilizarse en forma eficaz para disminuir la 
presion sangumea? Explique su respuesta a partir de 
los result ados. 

b) ^E1 ejercicio y la dieta serfan una alternativa eficaz 
a la medicacion? 

(. Sugerencia : Para responder a estas preguntas, quizas 
usted desee construir el modelo en mas de una forma.) 


12.69 Estudio de caso: Considere el conjunto de da- 
tos para el ejercicio 12.12 de la pagina 454 (datos de un 
hospital). El conjunto de datos se repite en seguida. 

a) Las salidas de sas proc reg presentadas en las fi- 
gures 12.9 y 12.10 suministran una cantidad consi- 
derable de information. El proposito es detectar los 
valores extremos y, a final de cuentas, determinar 
cuales terminos del modelo deben utilizarse en la 
version final de este. 

b) Haga comentarios sobre cuales son otros analisis que 
deberian hacerse. 

c) Elabore analisis apropiados y escriba sus conclusio- 
nes con respecto al modelo final. 


Sitio x\ 

X2 

X 3 

2X4 

2X5 

y 

i 

15.57 

2463 

472.92 

18.0 

4.45 

566.52 

2 

44.02 

2048 

1339.75 

9.5 

6.92 

696.82 

3 

20.42 

3940 

620.25 

12.8 

4.28 

1033.15 

4 

18.74 

6505 

568.33 

36.7 

3.90 

1003.62 

5 

49.20 

5723 

1497.60 

35.7 

5.50 

1611.37 

6 

44.92 

11520 

1365.83 

24.0 

4.60 

1613.27 

7 

55.48 

5779 

1687.00 

43.3 

5.62 

1854.17 

8 

59.28 

5969 

1639.92 

46.7 

5>6 

2160.55 

9 

94.39 

8461 

2872.33 

78.7 

6.18 

2305.58 

10 

128.02 

20106 

3655.08 

180.5 

6.15 

3503.93 

11 

96.00 

13313 

2912.00 

60.9 

5.88 

3571.59 

12 

131.42 

10771 

3921.00 

103.7 

4.88 

3741.40 

13 

127.21 

15543 

3865.67 

126.8 

5.50 

4026.52 

14 

252.90 

36194 

7684.10 

157.7 

7.00 

10343.81 

15 

409.20 

34703 

12446.33 

169.4 

10.75 

11732.17 

16 

463.70 

39204 

14098.40 

331.4 

7.05 

15414.94 

17 

510.22 

86533 

15524.00 

371.6 

6.35 

18854.45 
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Dependent Predicted Std Error 


Obs 

Variable 

Value 

Mean Predict 

95“/, CL 

Mean 

957. CL Predict 

1 

566.5200 

775.0251 

241.2323 

244.0765 

1306 

-734.6494 

2285 

2 

696.8200 

740.6702 

331.1402 

11.8355 

1470 

-849.4275 

2331 

3 

1033 

1104 

278.5116 

490.9234 

1717 

-436.5244 

2644 

4 

1604 

1240 

268.1298 

650.3459 

1831 

-291.0028 

2772 

5 

1611 

1564 

211.2372 

1099 

2029 

76.6816 

3052 

6 

1613 

2151 

279.9293 

1535 

2767 

609.5796 

3693 

7 

1854 

1690 

218.9976 

1208 

2172 

196.5345 

3183 

8 

2161 

1736 

468.9903 

703.9948 

2768 

-13.8306 

3486 

9 

2306 

2737 

290.4749 

2098 

3376 

1186 

4288 

10 

3504 

3682 

585.2517 

2394 

4970 

1770 

5594 

11 

3572 

3239 

189.0989 

2823 

3655 

1766 

4713 

12 

3741 

4353 

328.8507 

3630 

5077 

2766 

5941 

13 

4027 

4257 

314.0481 

3566 

4948 

2684 

5830 

14 

10344 

8768 

252.2617 

8213 

9323 

7249 

10286 

15 

11732 

12237 

573.9168 

10974 

13500 

10342 

14133 

16 

15415 

15038 

585.7046 

13749 

16328 

13126 

16951 

17 

18854 

19321 

599.9780 

18000 

20641 

17387 

21255 




Std Error 

Student 


Obs 

Residual 

Residual 

Residual 

-2-1 0 1 2 

1 

-208.5051 

595.0 

-0.350 

1 1 

2 

-43.8502 

550.1 

-0.0797 

1 1 

3 

-70.7734 

578.5 

-0.122 

1 1 

4 

363.1244 

583.4 

0.622 

1 1 * 

5 

46 . 9483 

606.3 

0.0774 

1 1 

6 

-538.0017 

577.9 

-0.931 

1 * 1 

7 

164.4696 

603.6 

0.272 

1 1 

8 

424.3145 

438.5 

0.968 

1 1 * 

9 

-431.4090 

572.6 

-0.753 

1 * 1 

10 

-177.9234 

264.1 

-0.674 

1 * 1 

11 

332.6011 

613.6 

0.542 

1 1 * 

12 

-611.9330 

551.5 

-1.110 

| ** | 

13 

-230.5684 

560.0 

-0.412 

1 1 

14 

1576 

590.5 

2.669 

| | ***** 

15 

-504.8574 

287.9 

-1.753 

| *** | 

16 

376.5491 

263.1 

1.431 

| | ** 

17 

-466.2470 

228.7 

-2.039 

| **** | 


Figura 12.10: Salida de SAS para el ejercicio de repaso 12.69; parte II. 


12.70 Demuestre que al elegir el llamado mejor mo- 
delo del subconjunto de entre una serie de modelos 
candidato, si se selecciona el modelo con la menor s 2 , 
ello equivale a escoger el modelo con el R 2 j mas pe- 
queiio. 


12.71 A partir de un conjunto de datos de respuesta 
a la dosis de estreptomicina, un investigador desea de- 
sarrollar una relation entre la proportion de linfoblas- 
tos muestreados que contienen aberraciones y la dosis 
del medicamento. Se aplicaron cinco niveles de dosis a 
los conejos que se emplearon para el experimento. Los 
datos son los siguientes: 
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Capitulo 12 Regresion lineal multiple y ciertos modelos de regresion no lineal 


Dosis 

mg/kg) 

Numero de 
linfoblastos 

Numero de 
aberraciones 

0 

600 

15 

30 

500 

96 

60 

600 

187 

75 

300 

100 

90 

300 

145 


En la bibliograffa, vease Myers, 1990. 

a) Haga una regresion logfstica para el conjunto de da- 
tos, y asf estime /3o y Pi en el modelo, 

1 

p ~ i + e -U3o+Pl*) ’ 

donde n es el niimero de linfoblastos, x es la dosis y 
p la probabilidad de una aberration. 

b) Muestre los resultados de pruebas y 2 que revelen 
la significancia de los coeficientes de regresion /3o y 

Pi. 

c) Estime la DE 50 e interpreted. 


12.72 E 11 un experimento para estudiar el efecto de la 

carga, x, en lb/pulgadas 2 , sobre la probabilidad de falla 
de especfmenes de cierto tipo de tela, varios especl- 
menes se expusieron a cargas de entre 5 lb/pulg 2 a 90 
lb/pulg 2 . Se observaron los mimeros de “fallas”. Los 
datos son los siguientes: 


Carga 

Numero de 
especfmenes 

Numero de 
Fallas 

5 

600 

13 

35 

500 

95 

70 

600 

189 

80 

300 

95 

90 

300 

130 


a) Utilice regresion logfstica para ajustar el modelo 

_ 1 

p 1 -f e _ (/3o+/3iti ’ 

donde p es la probabilidad de falla y x es la carga. 

b) Emplee el concepto de razon de probabilidad para 
determinar el incremento de la probabilidad de falla 
que resulta de aumentar la carga en 20 lb/pulg 2 . 


12.13 Nociones erroneas y riesgos potenciales; 

relacion con el material de otros capitulos 

En este capitulo se estudiaron varios procedimientos para usarlos en el “intento” 
de encontrar el mejor modelo. Sin embargo, uno de los errores mas importantes en 
el trabajo de los cientfficos e ingenieros novatos es que existe un modelo lineal 
verdadero, y que es posible encontrarlo. En la mayorfa de fenomenos de la ciencia, 
las relaciones entre las variables cientfficas son de naturaleza no lineal y se desco- 
noce el modelo verdadero. Los modelos estadfsticos lineales son aproximaciones 
empfricas. 

A veces, la selection del modelo por adoptar depende de cual es la information 
que necesita obtenerse del mismo. ^Va a usarse para realizar predicciones? ^Para 
explicar el papel de cada regresor? Esta “selection” puede ser diffcil ante la presencia 
de colinealidad. Es un hecho que para muchos problemas de regresion hay modelos 
multiples muy similares en cuanto a su clesempeno. Para mayores detalles, vease la 
referenda de Myers (1990). 

Uno de los equfvocos mas nocivos del material de este capitulo consiste en dar 
demasiada importancia a R 2 en la selection del llamado mejor modelo. Es impor- 
tante recordar que para cualquier conjunto de datos, se puede obtener una R 2 tan 
grande como se desee, dentro de la restriction de que 0 < R 2 < 1. Prestar mucha 
atencion a R 2 con frecuencia lleva al sobreajuste. 

En este capitulo se dio mucha atencion a la detection de los valores extremos. Un 
error clasico y serio de los estadfsticos estriba en la decision acerca de la detection de 
los valores extremos. Los autores esperan que quede claro que el analista no deberfa 
por ningiin motivo detectar los valores extremos, eliminarlos del conjunto de datos, 
ajustar un modelo nuevo, informar sobre los valores extremos, y asf sucesivamente. 
Este es un procedimiento tentador y clesastroso para llegar a un modelo que se ajuste 
bien a los datos, lo cual resulta en un ejemplo de como mentir con estadfsticos. 
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Si se detecta un valor extremo, debe revisarse la historia de los datos en busca de 
posibles errores de captura o de procedimiento antes de eliminarlos del conjunto 
de datos. Debe recordarse que, por definition, un valor extremo es aquel para el 
cual el modelo no se ajusta bien. El problema podrfa no estar en los datos sino en 
la selection del modelo. Cambiar el modelo quizas harfa que el punto no se cletecte 
como un valor extremo. 




Capitulo 13 

Experimentos con un solo factor: 
General 


13.1 Tecnica del analisis de varianza 

En el material sobre estimation y prueba de hipotesis que se cubrio en los capitulos 9 y 
10, en cada caso nos restringimos a no considerar mas de dos parametros de la pobla- 
cion. Ese fue el caso, por ejemplo, en la prueba de la igualdad de dos medias poblacio- 
nales, usando muestras independientes de poblaciones normales con varianza comun 
pero desconocida, donde fue necesario obtener una estimation de union de a 2 . 

Dicho material, que trata con inferencias de dos muestras, representa un caso es- 
pecial de lo que se denomina el problema de un solo factor. Por ejemplo, en el ejercicio 
35, section 10.8, el tiempo de supervivencia esta medido para dos muestras de ratones, 
de los que una muestra recibio un tratamiento de suero contra la leucemia y la otra no 
lo recibio. En este caso, clecimos que hay un factor, llamado tratamiento, y el factor 
se halla en dos niveles. Si en el proceso de muestreo se utilizaran varios tratamientos 
en competencia, serian necesarias mas muestras de ratones. En ese caso, el problema 
implicarfa un factor con mas de dos niveles y, por ello, con mas de dos muestras. 

En el problema de k > 2 muestras, se supone que hay k muestras provenientes 
de k poblaciones. Un procedimiento muy comun que se utiliza cuando se prueban 
medias poblacionales se denomina analisis de varianza, o anova . 

El analisis de varianza no es, por supuesto, una tecnica nueva, si el lector ha es- 
tudiado el material acerca de la teoria de la regresion. Se usa el enfoque del analisis 
de varianza para hacer una partition de la suma total de cuadrados en una parte 
que se deba a la regresion, y otra que se deba al error. 

Suponga que en un experimento industrial a un ingeniero le interesa la forma en 
que la absorcion media de humedad del concreto varia para 5 agregados de concreto 
diferentes. Las muestras se exponen a la humedad durante 48 horas. Se decidio que 
para cada agregado deben probarse 6 muestras, lo que hace que se requiera probar 
un total de 30 muestras. En la tabla 13.1 se muestran los datos registrados. 

El modelo que se considera para esta situation es el siguiente. Se tomaron 6 
observaciones de cada una de las 5 poblaciones, con medias n\, h 2 , . . . , /is, respecti- 
vamente. Se desea probar 

H 0 : Hi = Hi = • • • = H5i 

Hi : Al menos dos de las medias no son iguales. 
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Tabla 13.1: Absorcion de humedad en agregados para concreto 


Agregado: 

1 

2 

3 

4 

5 



551 

595 

639 

417 

563 



457 

580 

615 

449 

631 



450 

508 

511 

517 

522 



731 

583 

573 

438 

613 



499 

633 

648 

415 

656 



632 

517 

677 

555 

679 


Total 

3320 

3416 

3663 

2791 

3664 

16,854 

Media 

553.33 

569.33 

610.50 

465.17 

610.67 

561.80 


Ademas, estamos interesados en realizar comparaciones individuales entre estas 
5 medias poblacionales. 

Dos fuentes de variabilidad en los datos 

En el procedimiento del analisis de varianza, se supone que cualquier variation 
que exista entre los promedios de los agregados se atribuye a 1. la variation en la 
absorcion entre observaciones clentro de los tipos de agregados, y 2. la variation 
debida a los tipos de agregados, es decir, a las diferencias en la composition quimica 
de los agregados. Por supuesto, la variation dentro de los agregados se debe a 
varias causas. Quiza las condiciones de temperatura y humedad no se mantuvieron 
constantes durante el experimento. Es posible que haya habido cierta cantidad de 
heterogeneidad en los lotes de materias primas que se usaron. En todo caso, debe 
considerarse la variation dentro de la muestra como una variation aleatoria o al 
azar, y parte del objetivo del analisis de varianza es determinar si las diferencias 
entre las 5 medias muestrales son lo que se esperaria debido a la sola variation 
aleatoria. 

En esta etapa surgen muchas preguntas acerca del problema anterior. Por ejem- 
plo, ^cuantas muestras cleben probarse para cada agregado? Esta es una pregunta 
que clesafta continuamente al analista. Ademas, ique pasa si la variation al interior 
de la muestra es tan grande que seria diftcil para un procedimiento estadtstico detec- 
tar las diferencias sistematicas? ^Es posible controlar de manera sistematica fuentes 
externas de variation y asi eliminarlas de la parte que llamamos variation aleatoria? 
En las secciones siguientes intentaremos responder estas y otras preguntas. 


13.2 La estrategia del diseno de experimentos 

En los capftulos 9 y 10 se estudiaron el concepto de la estimation y la prueba de 
hipotesis para el caso de dos muestras, con la salvedad importante de la manera en 
que se realiza el experimento. Esto forma parte de la categorfa amplia del diseno 
experimental. Por ejemplo, para la prueba t combinada que se estudio en el ca- 
pttulo 10, se supone que los niveles de los factores (los tratamientos, en el ejercicio 
de los ratones) se asignan al azar a las unidades experiment ales (los ratones). En los 
capftulos 9 y 10 se analizo el concepto de unidades experimentales, y se ilustro con 
varios ejemplos. En pocas palabras, las unidades experimentales son las unidades 
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(ratones, pacientes, especi'menes de concreto, tiempo) que proporcionan la hete- 
rogeneidad que lleva al error experimental en una investigation cientffica. La 
asignacion al azar elimina el sesgo que podria originarse en una asignacion sistemati- 
ca. El objetivo consiste en distribuir en forma uniforme entre los niveles de los facto- 
res los riesgos que introduce la heterogeneidad de las unidades experimentales. Una 
asignacion al azar Simula mejor las condiciones presentes en el modelo. En la section 
13.8 se estudia el bloqueo en los experimentos. En los capitulos 9 y 10 se presento 
el concepto de bloqueo, cuando se efectuaron comparaciones entre las medias usando el 
pareo, es decir, la division de las unidades experimentales en pares homogeneos de- 
nominados bloques. Entonces, los niveles de los factores o tratamientos se asignan 
al azar dentro de los bloques. El proposito del bloque es reducir el error experimental 
eficaz. En este capitulo se extiende de manera natural el pareo a bloques de tamano 
mayor, con el analisis de varianza como la herramienta analitica principal. 


13.3 Analisis de varianza de un solo factor: 

Diseno completamente al azar (anova de un solo factor) 

De k poblaciones se seleccionan muestras aleatorias de tamano n. Las k poblaciones 
diferentes se clasifican con base en un criterio unico, como tratamientos o grupos dife- 
rentes. En la actualidad, el termino tratamiento se utiliza, por lo general, para desig- 
nar las diversas clasificaciones, ya sean diferentes agregados, analistas, fertilizadores 
o regiones del pais. 

Suposiciones e hipotesis del anova de un solo factor 

Se supone que las k poblaciones son independientes y estan distribuidas en forma 
normal con medias pi, p 2 , . . . , pk, y varianza comun er 2 . Como se indico en la sec- 
cion 13.2, estas suposiciones son mas aceptables mediante la aleatoriedad. Se desean 
obtener metodos adecuados para probar las hipotesis 

H,y. pi = p-2 = • • • = p k - 

Hp Al menos dos de las medias no son iguales. 

Sea que y l3 denote la j-esima observacion del z-esimo tratamiento, y el acomodo de 
los datos es el que se observa en la tabla 13.2. Aqui, Yp es el total de todas las obser- 
vations de la muestra, del z-esimo tratamiento, fji,, es la media de todas las ob- 
servations en la muestra del z-esimo tratamiento, Y es el total de todas las nk 
observaciones, y y .. es la media de todas las nk observaciones. 

Modelo de anova para un solo factor 

Cada observacion puede escribirse en la forma 

Y'lj Pi “t“ 6ij , 

donde e-ij mide la desviacion que tiene la observacion j-esima de la z-esima muestra, 
con respecto de la media del tratamiento correspondiente. El termino e t j representa 
el error aleatorio y juega el mismo papel que los terminos del error en los modelos 
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Tabla 13.2: k muestras aleatorias 


Tratamiento: 

1 

2 

i 

k 



2/n 

2/21 

Vn 

2/fei 



2/12 

2/22 

Vi2 

Vk2 



yin 

2/2 n 

Vin 

' Vkn 


Total 

Yi. 

y 2 . ■■ 

■ Vi. ■ ■ 

■ Y k . 

Y. 

Media 

2/1. 

2/2. 

Vi. 

2 Ik. 

y.. 


de regresion. Una forma alternativa y preferible de esta ecuacion se obtiene al susti- 

k 

tuir Hi = p + cXi, sujeta a la restriccion a i = 0. Por lo tanto, se escribe 

i= 1 

Yij - [l OCi “t - Cij . 


donde p tan solo es la media global de todas las p t , es clecir, 



i= 1 


y a t se denomina el efecto del i-esimo tratamiento. 

La prueba de la hipotesis nula de que k medias poblacionales son iguales, contra 
la alternativa de que al menos dos de las medias son distintas, ahora puede reempla- 
zarse por las hipotesis equivalentes. 

Hq: a\ = 02 = • • • = = 0, 

Hq\ Al menos una de las a* no es igual a cero. 


Resolucion de la variabilidad total en componentes 

Nuestra prueba se basara en una comparacion de dos estimadores independientes 
de la varianza poblacional comun cr 2 . Dichos estimadores se obtendran haciendo la 
particion de la variabilidad total de nuestros datos, clenotados mediante la sumato- 
ria doble 




i = 1 3=1 


en dos componentes. 


Teorema 13.1: 


Identidad de la suma de cuadrados 

k n k k n 

~y ) 2 = n ^2(yi- - y ) 2 + EE(^ - Vi) 2 - 

i= 1 j—1 i— 1 i—1 j = 1 


En lo que sigue, sera conveniente identificar los terminos de la identidad de la 
suma de cuadrados con la notacion que se presenta en seguida: 
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Tres medidas 
importantes de 
variabilidad 


k n 

SST = {Vij ~ y .) 2 — suma total de cuadrados, 

i = 1 j = 1 

k 

ssa = (Vi- — V- ) 2 — suma de los cuadrados del tratamiento, 

i = 1 
k n 

sse = S ( Vij ~ Vi.) 2 = suma de los cuadrados de los errores. 

i=ij=i 


Ahora, la identidad de la suma de los cuadrados puede representarse simbolica- 
mente con la ecuacion 


SST = SSA + SSE. 

La identidad anterior expresa como las variaciones entre tratamientos y dentro de 
estos se suman para formar la suma total de cuadrados. Sin embargo, puede ampliar- 
se mucho la perspectiva si se investiga el valor esperado tanto de ssa como de sse. 
Finalmente, se desarrollaran estimadores de la varianza que formulen la razon que 
se va a usar para probar la igualdad de las medias poblacionales. 


Teorema 13.2: 


k 

E(ssa ) = (k — 1 )( 7 2 + 

i—1 


La prueba del teorema se deja como ejercicio para el lector (vease el ejercicio 13.2 
de la pagina 521). 

Si H 0 es verdadera, un estimador de o 2 con base en k — 1 grados de libertad, esta 
dado por la expresion 


Media cuadratica 
del tratamiento 


SSA 

k-1 


Si Hq es verdadera y por ello cada en el teorema 13.2 es igual a cero, se observa 
que 


E 


SSA 

k - 1 


y si es un estimador insesgado de o 2 . Sin embargo, si Hi es verdadera, se tiene 
que 


E 


SSA 

k-1 


Tl \ -\ 


k - 1 


i= 1 


y s\ estima a cr 2 mas un termino adicional, que mide la variacion debida a los efectos 
sistematicos. 

Otro estimador independiente de ct 2 , con base en k(n — 1) grados de libertad, es 
la formula familiar 


SSE 

k(n — 1 ) ’ 


Error cuadratico 
medio 
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Resulta instructive puntualizar la importancia de los valores esperados de las 
medias cuadraticas recien expresados. En la section siguiente se estudia el empleo 
de la razon F con la media cuadratica del tratamiento en el numerador. Se observa 
que cuando Hi es verdadera, la presencia de la condition E(s 2 ) > E(s 2 ) sugiere que 
la razon F se utiliza en el contexto de una prueba unilateral de cola superior. 
Es decir, cuando Hi es verdadera se esperaria que el numerador fuera mayor que 
el denominador. 


Uso de la prueba F en el anova 

El estimador s 2 es insesgado sin que importe la verdad o falsedad de la hipotesis 
nula (vease el ejercicio 13.1 de la pagina 521). Es importante notar que la identidad 
de la suma de cuadrados ha hecho la partition no solo de la variabilidad total de los 
datos, sino tambien del numero total de grados de libertad. Es decir, 

nk — 1 = k — 1 + k{n — 1). 

Razon F para probar la igualdad de las medias 

Cuando Hq es verdadera, la razon / = s 2 /s 2 es un valor de la variable aleatoria F, 
que tiene distribution Peon k — 1 y k(n — 1) grados de libertad. Como s 2 sobres- 
tima <T 2 cuando Ho es falsa, se tiene una prueba de una cola con la region critica 
contenida por entero en la cola derecha de la distribution. 

Con un nivel de significancia de a, se rechaza la hipotesis nula Hq cuando 

/ > fo\k - 1, k(n - 1)]. 

Otro enfoque, el del valor P, sugiere que la evidencia a favor o en contra de Hq es 

P= P[f[k - 1, k(n - 1)] > /]. 

Los calculos para un problema de analisis de varianza, por lo general, se resumen en 
forma tabular, como se presenta en la tabla 13.3. 


Tabla 13.3: Analisis de varianza del anova para un solo factor 


Fuente de 

Suma de 

Grados de 

Media 

f 

variacion 

cuadrados 

libertad 

cuadratica 

calculada 

Tratamientos 

SSA 

k - 1 

„2 SSA 

A 1 ~ fc -1 

si 

s 2 

Error 

SSE 

fc(n — 1) 

„2 __ SSE 

* k(n-l) 


Total 

SST 

kn — 1 




Ejemplo 13.1:1 Pruebe la hipotesis de que pi = P 2 = = P 5 con un nivel de significancia de 0.05, 

para los datos de la tabla 13.1 sobre la absorcion de humedad por varios tipos de 
agregados para cemento. 

Hq'- Pi,= P2 = ■ ■ ■ = P5, 


Solucion: 


Hp A1 menos dos de las medias no son iguales. 
a = 0.05. 
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Region critica: / > 2.76 con v\ = 4 y v- 2 , = 25 grados de libertad. Los calculos de la 
suma de cuadrados dan 


SST = 209, 377, 
ssa = 85, 356, 

sse = 209, 377 - 85, 356 = 124, 021. 

En la figura 13.1 se muestran estos resultados y el resto de los calculos del procedi- 
miento de SAS para el anova. 


The GLM Procedure 
Dependent Variable: moisture 


Sum of 


Source 

DF 

Squares 

Mean Square 

F 

Value 

Pr > F 

Model 

4 

85356.4667 

21339.1167 


4.30 

0.0088 

Error 

25 

124020.3333 

4960.8133 




Corrected Total 

29 

209376.8000 





R-Square 

Coeff Var 

Root MSE 

moisture Mean 




0.407669 

12.53703 

70.43304 

561.8000 




Source 

DF 

Type I SS 

Mean Square 

F 

Value 

Pr > F 

aggregate 

4 

85356.46667 

21339.11667 


4.30 

0.0088 


Figura 13.1: Salida de SAS para el procedimiento de analisis de varianza. 


Decision: Rechace Hq y concluya que los agregados no tienen la misma media de 
absorcion. El valor P para / = 4.30 es mas pequeno que 0.01. 

Durante el trabajo experimental es frecuente que se pierdan algunas de las obser- 
vaciones cleseadas. Los animales del experimento mueren, el material experimental 
se dana o los seres humanos abandonan el estudio. El analisis anterior para un tama- 
no igual de muestra todavia debe validarse con la modification leve de las formulas 
de la suma de cuadrados. Ahora se supondra que las k muestras aleatorias son de 
tamano m, ri 2 , . . . , rik, respectivamente. 


Suma de cuadrados; * JA, _ * 

tamanos clesiguales SST ~ / , / Jd/ij ~ V -) > SSA ~ / — V. ) > SSE — SST ~ SSA 

de las muestras 1=1 • 7=1 1=1 

Despues, se hace la particion de los grados de libertad, como antes: N — 1 para 

k 

SST, k — 1 para SSA, y N — 1 — (/c— 1) = 1V — k para SSE , donde N = J2 n i- 

i—l 


Ejemplo 13.2:1 Parte de un estudio dirigido por el Instituto Politecnico y Universidad Estatal de 
Virginia se diseno para medir los niveles de actividad del suero fosfatado alcalino 
(en unidades de Bessey-Lowry) en ninos con crisis epilepticas que recibieron terapia 
anticonvulsiva al cuidado de un medico privado. Para el estudio se reclutaron 45 
sujetos y se clasificaron en cuatro grupos, segun el medicamento: 
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G-l: Control (no recibieron anticonvulsivos ni teni'an historia cle crisis epilepticas) . 
G-2: Fenobarbital. 

G-3: Carbamazepina. 

G-4: Otros anticonvulsivos. 

De las muestras de sangre tomadas de cada sujeto, se determino el nivel de actividad 
del suero fosfatado alcalino y se registro segun se observa en la tabla 13.4. Pruebe 
la hipotesis de que con un nivel de significancia de 0.05, el promedio del nivel de 
actividad del suero fosfatado alcalino es el mismo para los cuatro grupos del medi- 
cament o. 


Tabla 13.4: Nivel de actividad del suero fosfatado alcalino 


G- 

■1 

G-2 

G-3 

G-4 

49.20 

97.50 

97.07 

62.10 

110.60 

44.54 

105.00 

73.40 

94.95 

57.10 

45.80 

58.05 

68.50 

142.50 

117.60 

95.84 

86.60 

91.85 

53.00 

77.71 

30.10 

58.35 

106.60 

175.00 

150.00 

36.50 

72.80 

0.57 

79.50 

82.90 

82.30 

116.70 

0.79 

29.50 

111.50 

87.85 

45.15 

0.77 

78.40 


105.00 

95.22 

70.35 

77.40 

0.81 

127.50 



Solucion: Hq : pi = p 2 = Ps — Pi, 

Hp A1 menos dos de las medias no son iguales. 
a = 0.05. 

Region critica: / > 2.836, con interpolation de los valores de la tabla A. 6. 

Calculos: Y h = 1460.25, Y 2 . = 440.36, Y 3 . = 842.45, Y 4 . = 707.41 y Y. = 3450.47. 
En la salida de minitab que se presenta en la figura 13.2 se incluye el analisis de va- 
rianza. 

Decision: Rechace H 0 y concluya que los niveles de actividad del suero fosfatado 
alcalino para los cuatro grupos de medicamentos no siempre son los mismos. El valor 
P es de 0.02. 

Como conclusion del analisis de la varianza para la clasificacion de un solo factor, 
mencionaremos las ventajas que tiene que elegir muestras del mismo tamano en vez 
de otras de tamanos distintos. La primera ventaja es que la razon / no es sensible a 
fallos pequenos de la suposicion de varianzas iguales para las k poblaciones cuando 
las muestras son del mismo tamano. La segunda consiste en que las muestras de 
tamano igual minimizan la probabilidad de cometer un error del tipo II. 


13.4 Pruebas para la igualdad de diversas varianzas 

Aunque la razon / que se obtiene con el procedimiento del analisis de varianza no es 
sensible a fallos de la suposicion de varianzas iguales para las k poblaciones normales 
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One-way ANOVA : G-l, G-2, G-3, G-4 

Source DF SS MS F P 

Factor 3 13939 4646 3.57 0.022 

Error 41 53376 1302 

Total 44 67315 

S = 36.08 R-Sq = 20.717, R-Sq(adj) = 14.90% 

Individual 95% CIs For Mean Based on 


Pooled StDev 

Level N Mean StDev — + + + + 

G-l 20 73.01 25.75 ( * ) 

G-2 9 48.93 47.11 ( * ) 

G-3 9 93.61 46.57 ( * ) 

G-4 7 101.06 30.76 ( * ) 

30 60 90 120 


Pooled StDev = 36.08 


Figura 13.2: Analisis de minitab de la tabla 13.4. 


si las muestras son de igual tamano, debe tenerse precaution y efectuar una prueba 
preliminar sobre la homogeneidad de las varianzas. En el caso de muestras de tama- 
nos distintos, es claramente aconsejable realizar una prueba como esa, si existe duda 
razonable acerca de la homogeneidad de las varianzas de la poblacion. Por lo tanto, 
suponga que se desea probar la hipotesis nula 

TT 2 _ 2 _ 2 

Ho- G \ ~ & 2 — ' ' ' — a k 


contra la alternativa 


Hp. No todas las varianzas son iguales. 


La prueba que usaremos, denominada prueba de Bartlett, se basa en un esta- 
ch'stico cuya distribution muestral proporciona valores criticos exactos cuando los 
tamanos de muestra son iguales. Dichos valores criticos para tamanos iguales de 
muestras tambien pueden utilizarse para obtener aproximaciones muy exactas de los 
valores criticos para tamanos distintos de muestras. 

En primer lugar, calculamos las varianzas de las k muestras s 1; s 2 , ■ ■ ■ , s k de 

k 

tamanos np ri 2 , ■ ■ ■ , n k con n i = N . En segundo lugar, se combinan las varian- 

i=i 

zas muestrales para dar la estimation de union 


s 2 = : 

p N- 


k 

~k ^ 

2=1 


(rii - 1 )sf 


520 


Capitulo 13 Experimentos con un solo factor: General 


Ejemplo 13.3: 


Solucion: 


Ahora, 


b = 


[(sf) rai - 1 (s|) n2 - 1 ■ ■ ■ ( s 2)n fe -l]l/(iV-fc) 


s 


2 

P 


es un valor de una variable aleatoria B que tiene la distribution de Bartlett. 
Para el caso especial en que m = ri2 = • • • = rik = n, se rechaza Ho con un nivel de 
significancia a si 


b < b k (a;n), 

donde b k {a\ n) es el valor critico que deja un area de tamano a en el extremo izquier- 
do de la distribution de Bartlett. La tabla A. 10 da los valores crfticos, b k {cc, n), para 
a = 0.01 y 0.05; k = 2, 3, . . . , 10; y valores seleccionados de n, desde 3 hasta 100. 

Cuando los tamanos de las muestras son distintos, se rechaza la hipotesis nula 
con el nivel de significancia a si 

b < b k (a;ni,n 2 ,...,n k ), 


donde 


b k (a; rii, n 2 , • • • ,n k ) 


ni& fc (a;ni) + n 2 b k (a;n 2 ) H h n k b k {a\n k ) 

N 


Igual que antes, todas las b k (a ; n,) para tamanos de muestra n\, n 2 , . . . , n k , se ob- 
tienen de la tabla A. 10. 


Utilice la prueba de Bartlett para probar la hipotesis de que, con un nivel de sig- 
nificancia de 0.01, son iguales las varianzas poblacionales de los cuatro grupos de 
medicamentos del ejemplo 13.2. 

Ho- cr 1 — a 2 — cr 3 — a 4 , 

Hp Las varianzas no son iguales. 

a = 0.01. 


Region crftica: En relacion con el ejemplo 13.2, tenemos que n\ = 20, n 2 = 9, n 2 = 9, 
714 = 7, N = 45 y k = 4. Por lo tanto, se rechaza cuando 

b < 6 4 (0. 01; 20, 9, 9, 7) 

_ (20)(0.8586) + (9)(0.6892) + (9)(0.6892) + (7)(0.6045) 

~ 45 

= 0.7513. 

Calculos: El primero es 

si = 662.862, si = 2219.781, sf = 2168.434, s\ = 946.032, 

y despues 

2 (19) (662.862) + (8) (2219.781) + (8) (2168.434) + (6)(946.032) 

s p ~ 


= 1301.861. 


41 
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Ahora, 

[(662.862) 19 (2219.781) s (2168.434) 8 (946.032) 6 ] 1 / 41 
“ 1301.861 


0.8557. 


Decision: no rechace la hipotesis y concluya que las varianzas poblacionales de los 
cuatro grupos de medicamentos no son significativamente distintas. 

Aunque la prueba de Bartlett es la que se utiliza con mayor frecuencia para pro- 
bar la homogeneidad de varianzas, se dispone de otros metodos. Uno que se debe a 
Cochran brinda un procedimiento de calculo sencillo; aunque esta limitado a situa- 
ciones en que los tamanos de las muestras son iguales. La prueba de Cochran es 
util en particular para cletectar si alguna de las varianzas es mucho mayor que las 
demas. El estadistico que se emplea es: 

mas grande Sf 
G = k ’ 

E sf 

i—1 

y se rechaza la hipotesis de igualdad de varianzas si g > g ai donde el valor de g a se 
obtiene de la tabla A. 11. 

Para ilustrar la prueba de Cochran nos remitiremos otra vez a los datos de la 
tabla 13.1, sobre la absorcion de humedad de los agregados para concreto. ^Se justi- 
fied aceptar varianzas iguales cuando se realizo el analisis de varianza en el ejemplo 
13.1? Se encontro que 

sf = 12, 134, sf = 2303, sf = 3594, sf = 3319, s\ = 3455. 

Por lo tanto, 


12, 134 
24,805 


0.4892, 


la cual no excede el valor de la tabla 50.05 = 0.5065. Entonces, se concluye que es 
razonable la suposicion de que las varianzas son iguales. 


Ej ercicios 


13.1 Demuestre que el error cuadratico medio, 

2 _ SSE 
k(n — 1) 

es un estimador insesgado de a 2 para el analisis de va- 
rianza en una clasificacion de un solo factor. 

13.2 Demuestre el teorema 13.2. 

13.3 Estan en consideration seis maquinas diferentes 
para utilizarlas en la manufactura de juntas de caucho. 
Las maquinas se comparan con respecto de la resisten- 
cia a la tension del producto. Se emplea una muestra 
aleatoria de 4 juntas procedentes de cada maquina, 
para determinar si la resistencia media a la tension 
vari'a de una maquina a otra. Las siguientes son las 


mediciones de esa resistencia en kilogramos por centf- 
rnetro cuadrado x 10 _1 : 


Maquina 


1 

2 

3 

4 

5 

6 

17.5 

16.4 

20.3 

14.6 

17.5 

18.3 

16.9 

19.2 

15.7 

16.7 

19.2 

16.2 

15.8 

17.7 

17.8 

20.8 

16.5 

17.5 

18.6 

15.4 

18.9 

18.9 

20.5 

20.1 


Lleve a cabo el analisis de varianza con un nivel de sig- 
nificancia de 0.05, e indique si las resistencias medias a 
la tension difieren o no en forma significativa para las 
6 maquinas. 

13.4 Los datos de la tabla siguiente representan el 
numero de horas de alivio que proporcionaron 5 marcas 
diferentes de comprimidos para el dolor de cabeza que se 
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suministraron a 25 sujetos que tem'an fiebre de 38 °C o 
mas. Realice el analisis de varianza y pruebe la hipotesis 
de que, con un nivel de significancia de 0.05, el numero 
medio de horas de alivio que dieron los comprimidos 
es el mismo para las 5 marcas. Analice los resultados. 


Comprimido 


A 

B 

C 

D 

E 

5.2 

9.1 

3.2 

2.4 

7.1 

4.7 

7.1 

5.8 

3.4 

6.6 

8.1 

8.2 

2.2 

4.1 

9.3 

6.2 

6.0 

3.1 

1.0 

4.2 

3.0 

9.1 

7.2 

4.0 

7.6 


13.5 En el artfculo Shelf-Space Strategy in Retailing , 
que se publico en Proceedings: Southern Marketing As- 
sociation. , se investigo en los supermercados el efecto 
que tenia la altura de los anaqueles sobre las ventas de 
alimento enlatado para perro. Se llevo a cabo un ex- 
perimento en un supermercado pequeno durante un 
periodo de 8 di'as, para las ventas de una marca de 
alimento para perro conocida como Arf y que impli- 
caba tres niveles de altura de anaquel: a las rodillas, a 
la cintura y a los ojos. Cada di'a se cambiaba al azar, 
en tres ocasiones distintas, la altura del anaquel en 
la que estaba dicho alimento. Las secciones restantes 
de la gondola que contenfa la marca dada se llenaban 
con una mezcla de marcas de comida canina, las cua- 
les resultaban tanto familiares como desconocidas para 
los consumidores de esa area geografica especi'fica. Las 
ventas diarias, expresadas en cientos de dolares, del 
alimento Arf para las tres alturas de anaquel, fueron 
las siguientes: 

Altura de anaquel 

A las rodillas A la cintura A los ojos 


77 

88 

85 

82 

94 

85 

86 

93 

87 

78 

90 

81 

81 

91 

80 

86 

94 

79 

77 

90 

87 

81 

87 

93 


^Existe una diferencia significativa en el promedio de 
ventas diarias de dicho alimento, con base en la altura 
del anaquel? Utilice un nivel de significancia de 0.01. 

13.6 La inmovilizacion de los venados silvestres de 
cola blanca usando tranquilizantes da a los investiga- 
dores la oportunidad de estudiarlos de cerca y obtener 
information psicologica valiosa. En el estudio deno- 
niinado Influence of Physical Restraint and Restraint 
Facilitating Drugs on Blood Measurements of White- 
Tailed Deer and Other Selected Mammals, realizado 
por el Instituto Politecnico y Universidad Estatal de 
Virginia Polytechnic Institute and State University, los 
biologos de la vida silvestre probaron el tiempo del de- 
rribamiento (el periodo transcurrido entre la inyeccion 
y la inmovilidad) de tres sustancias tranquilizantes 
distintas. En este caso, la inmovilidad se define como 


el punto en que el animal ya no tiene control muscu- 
lar suficiente para permanecer de pie. Se asignaron al 
azar 30 venados machos de cola blanca a cada uno de 
tres tratamientos. El grupo A recibio 5 miligramos de clo- 
ruro de sucinilcolina liquida (see); al grupo B se le 
suministraron 8 miligramos de see en polvo; y al grupo 
C, 200 miligramos de liidrocloruro de fenciclidina. 
A continuation se presentan los tiempos de derriba- 
miento, en minutos. Haga un analisis de varianza con 
un nivel de significancia de 0.01, y determine si el tiem- 
po promedio de derribamiento es el mismo o no para 
las tres sustancias. 


Grupo 

A B C 


11 

10 

4 

5 

7 

4 

14 

16 

6 

7 

7 

3 

10 

7 

5 

7 

5 

6 

23 

10 

8 

4 

10 

3 

11 

6 

7 

11 

12 

3 


13.7 Se ha demostrado que el fertilizante a base de 
fosfato de amonio de magnesio, MgNHUPCU, es un 
proveedor eficaz de los nutrientes necesarios para el 
crecimiento de las plantas. Los compuestos que sumi- 
nistra son muy solubles en agua, lo cual permite su 
aplicacion directa sobre la superficie del suelo o que 
se mezcle con el sustrato del crecimiento durante su 
colocation en una maceta. Se efectuo un estudio deno- 
minado Effect of Magnesium Ammonium Phosphate 
on Height of Chrysanthemus, en la Universidad George 
Mason, para determinar el nivel optimo posible de la 
fertilization, con base en la mejorfa de la respuesta del 
crisantemo en cuanto a su crecimiento vertical. Se di- 
vidieron 40 semillas de crisantemo en 4 grupos de diez 
plantas cada uno. Se sembro cada una en una maceta 
similar que contenfa un medio uniforme de crecimien- 
to. Se agrego a cada grupo de plantas una concentra- 
tion cada vez mayor de MgNLUPCU, medido en gramos 
por bushel. Se cultivaron durante cuatro semanas los 
cuatro grupos de plantas en condiciones uniformes en 
un invernadero. En la tabla que sigue se presentan los 
tratamientos y los cambios respectivos de sus alturas, 
medidas en centfmetros: 


Tratamiento 


50 g/bu 

100 g/bu 

200 g/bu 

400 g/bu 

13.2 

16.0 

7.8 

21.0 

12.4 

12.6 

14.4 

14.8 

12.8 

14.8 

20.0 

19.1 

17.2 

13.0 

15.8 

15.8 

13.0 

14.0 

17.0 

18.0 

14.0 

23.6 

27.0 

26.0 

14.2 

14.0 

19.6 

21.1 

21.6 

17.0 

18.0 

22.0 

15.0 

22.2 

20.2 

25.0 

20.0 

24.4 

23.2 

18.2 
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Con un nivel de significancia de 0.05, ^podri'a concluir- 
se que concentraciones diferentes de MgNHUPCU afec- 
tan la estatura promedio que alcanzan los crisantemos? 
^Que cantidad del fertilizante parece ser la mejor? 


13.8 Un estudio mide la tasa de sorcion (ya sea 
absorcion o adsorcion) de tres tipos diferentes de sol- 
ventes qui'micos organicos. Estos solventes se utilizan 
para limpiar partes industriales metalicas, y son dese- 
chos potencialmente riesgosos. Se probaron muestras 
independientes de solventes de cada tipo y se registra- 
ron sus tasas de sorcion como porcentaje molar. [Vease 
McClave, Dietrich y Sincich (1997).] 


Aromaticos 

Cloroalcalinos 


Esteres 

1.06 

0.95 

1.58 

1.12 

0.29 

0.43 

0.06 

0.79 

0.65 

1.45 

0.91 

0.06 

0.51 

0.09 

0.82 

1.15 

0.57 

0.83 

0.44 

0.10 

0.17 

0.89 

1.12 

1.16 

0.43 

0.55 

0.53 

0.17 

1.05 




0.61 

0.34 

0.60 


Substrate Concentrations on the Conformational Va- 
riation of the nadph:nad Transhydrogenase of Hyme- 
nolepiasis diminuta llevado a cabo por la Universidad 
Estatal Bowling Green, se diseno para evaluar la ca- 
pacidad de dicha enzima para sufrir cambios en su 
conformation o su forma. Los cambios en la actividad 
especifica de la enzima ocasionados por las variaciones 
en la concentration de nadp podrfan interpretarse como 
un apoyo de la teorfa del cambio de conformation. La 
enzima en cuestion se localiza en la membrana inte- 
rior de las mitocondrias de la tenia. Se homogeneizaron 
las tenias, y se aislo la enzima mediante una serie de 
centrifugaciones. Despues, se agregaron diferentes con- 
centraciones de nadp a la solution de enzima aislada y 
la mezcla se incubo durante tres minutos en un bano de 
agua a 56 °C. Luego, se analizo la enzima con un espec- 
trometro de rayo dual y se calcularon los resultados 
siguientes, en terminos de la actividad especifica de la 
enzima, en nanomoles por minuto por miligramo de pro- 
tefna: 


^Existe diferencia significativa en la tasa media de sor- 
cion de los tres solventes? Para obtener sus conclusio- 
nes ernplee un valor P. ^Que solvente usarfa? 

13.9 La enzima mitocondrial naph:nad transhidroge- 
nasa, de la tenia de la rata comun ( Hymenolepiasis di- 
minuta) cataliza el hidrogeno en transferencia de nadyh 
a nad, y produce nadh. Se sabe que esta enzima des- 
empena un papel vital en el metabolismo anaerobio de 
la tenia, y recientemente se planted la hipotesis de que 
podri'a servir como una bomba de intercambio de pro- 
tones, es decir, para transferir protones a traves de 
la membrana mitocondrial. El estudio Effect of Various 


Concentration de NADP (nm) 


0 

80 

160 

360 

11.01 

11.38 

11.02 

6.04 

10.31 

12.09 

10.67 

10.67 

8.65 

8.30 

10.55 

12.33 

11.50 

7.76 

9.48 

11.26 

10.08 

10.31 

10.13 

9.36 

8.89 


Pruebe la hipotesis de que la actividad especifica pro- 
medio es la misma para las cuatro concentraciones, con 
un nivel de significancia de 0.01. 

13.10 Para los datos del ejercicio 13.7, use la prueba 
de Bartlett para probar si las varianzas son iguales. 


13.5 Comparaciones con un grado de libertad 

El analisis de varianza en la clasificacion de un solo factor, o experimento de un 
solo factor, como se le denomina con frecuencia, tan solo indica si puede rechazarse 
o no la hipotesis de tratamiento igual. Por lo general, el experimentador preferirfa 
efectuar un analisis mas profundo. Por ejemplo, en el ejemplo 13.1, el rechazo de 
la hipotesis nula permite concluir que las medias no son iguales, pero aim no sabe- 
mos si hay diferencias entre los agregados. El ingeniero quizas intuya a priori que los 
agregados 1 y 2 deberfan poseer propiedades similares de absorcion, al igual que 
los agregados 3 y 5. Sin embargo, resulta de interes estudiar las diferencias entre los 
dos grupos. Asf, parece apropiado probar las hipotesis 


Ho'- Vi + P2 — P3 — P5 — 0) 

Hp pi + p,2 - P3 - P5 4 0 - 


Se observa que la hipotesis es una funcion lineal de las medias poblacionales, en las 
cuales los coeficientes suman cero. 
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Definicion 13.1: 


Hipotesis para 
un contraste 


Cualquier funcion lineal de la forma 

k 

LO = Y'CilH, 

1=1 

k 

donde c i = 0, se llama comparacion o contraste de las medias de los trata- 

»= l 

mientos. 


Es frecuente que el experimentador realice comparaciones multiples al probar la 
significancia de los contrastes de las medias de los tratamientos, es decir, al probar 
una hipotesis del tipo 


k 

H 0 : } CjPi = 0, 

i= 1 
k 

i= 1 


k 

donde c» = 0. 

i=i 


La prueba se efectua al calcular, primero, un contraste similar de las medias de los 
tratamientos. 


k 

W = ^2 CiVi ■■ 

Como Y\,, Y 2 . ,...,Yk. son variables aleatorias independientes que tienen distri- 
buciones normales con medias P 2 , ■ ■■ ,Pk y varianzas <j\/n\, <J 2 2 /ri 2 , . . . , cr 2 k /nk, 
respectivamente, el teorema 7.11 nos garantiza que w es un valor de la variable 
aleatoria normal W con media 


k 

PW — GPi 
i= 1 


y varianza 


2 _ 2 
°W ~ a 



Por lo tanto, cuando H 0 es vercladera, pw = 0 y, segun el ejemplo 7.5, el estadistico 


W 2 


o 


2 

W 


(ec,?,) 
° 2 £(<$/*) 


es una variable aleatoria con distribucion chi-cuadrada con 1 grado de libertad. 
Nuestra hipotesis se prueba con un nivel de significancia de a calculando 
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Estadistico 
para probar 
un contraste 


Definicion 13.2: 


Ejemplo 13.4: 


/ = 


k 

E c itii 

i= 1 


i2 


E (ciYiJm) 

i = 1 


SSw 


S 2 t tf/TH) s 2 EK 2 M) 
1=1 2 = 1 


Aqui', fes un valor de la variable aleatoria Eque tiene distribution Econ 1 y N — k 
grados de libertad. 

Cuando los tamanos de las muestras son iguales a n, 


SSw 


(se) 

k 


La cantidad SSw, que se denomina suma de cuadrados de los contrastes, indica la 
portion de SSA que se explica por el contraste en cuestion. 

Esta suma de cuadrados se empleara para probar la hipotesis de que el contraste 

k 

^ ^ CiPi 0 . 
i=l 

Con frecuencia es de interes probar contrastes multiples, en particular, contrastes 
que son linealmente independientes u ortogonales. Como resultado, se vuelve nece- 
saria la siguiente definicion: 

Se dice que los dos contrastes 

k k 

io 1 = '^2b i p i y u 2 = ^ CiPi 

i = 1 i = 1 

k 

son ortogonales, si ^ biCi/rii = 0 o, cuando las n* son iguales a n, si 

i=i 

k 

^ iCi = 

2=1 


Si u>i y oj 2 son ortogonales, entonces las cantidades SSw i y SSw 2 son componen- 
tes de SSA, cada una con un solo grado de libertad. Es posible hacer la particion de 
la suma de los cuadrados de los tratamientos con k — 1 grados de libertad, en un 
maximo de k — 1 sumas independientes de cuadrados, de los contrastes con un grado 
de libertad, que satisfacen la identidad 

ssa = SSwi + SSw 2 + • • • + SSwk- 1 , 
si los contrastes son ortogonales entre si. 


En relation con el ejemplo 13.1, encuentre la suma de cuadrados de los contrastes 
que corresponden a los contrastes ortogonales 

Wi = Pi + P2 - P3 - P5, w 2 = P! + P2 + P3 - 4 p 4 + P5 , 
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y efectue las pruebas de significancia adecuadas. En este caso, tiene interes a priori 
comparar los dos grupos (1, 2) y (3, 5). Un contraste importante e independiente es 
la comparacion entre el conjunto de agregados (1, 2, 3, 5) y el agregado 4. 
Solucion: Es evidente que los dos contrastes son ortogonales, puesto que 

( 1 )( 1 ) + ( 1 )( 1 ) + (- 1 )( 1 ) + ( 0 )(— 4 ) + (- 1 )( 1 ) = 0 . 

El segundo contraste indica una comparacion entre los agregados (1, 2, 3 y 5) y el 
agregado 4. Podemos escribir dos contrastes adicionales ortogonales a los dos pri- 
meros, es decir: 


u >3 = pi — p 2 (agregado 1 contra agregado 2 ), 

oj 4 = p 3 — p§ (agregado 3 contra agregado 5). 


De los datos de la tabla 13.1, se tiene que 


SSw i 


(3320 + 3416 - 3663 - 3664) 2 o 

6 [( 1) 2 + ( 1) 2 + (- 1 ) 2 + (-!)] ~~ ’ 


SSW2 


[3320 + 3416 + 3663 + 3664 - 4(2791)] 2 
6[(1 ) 2 + (l ) 2 + (l ) 2 + (l ) 2 + ( — 4) 2 ] “ ’ 


En la tabla 13.5 se presenta un analisis de varianza mas amplio. Se observa que las 
dos sumas de cuadrados de los contrastes intervienen en casi todas las sumas de 
cuadrados de los agregados. Existe una diferencia significativa entre las propiedades 
de absorcion de los agregados, y el contraste u>\ es significativo marginalmente. Sin 
embargo, el valor / de 14.12 para 0 J 2 es mas significativo, y se rechaza la hipotesis 


Ho- Pi + P 2 + P3 + ps — 4/x 4 . 


Tabla 13.5: Analisis de varianza usando contrastes ortogonales 


Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Media de los 
cuadrados 

/ 

calculada 

Agregados 

85,356 

4 

21,339 

4.30 

(1,2) vs. (3,5) 

j 14,553 

/ 1 

f 14, 533 

2.93 

(1,2, 3, 5) vs. 4 

[ 70, 035 

{ 1 

[70, 035 

14.12 

Error 

124,021 

25 

4,961 


Total 

209,377 

29 




Los contrastes ortogonales permiten al profesional hacer la partition de la varia- 
tion del tratamiento en componentes independientes. Hay varias elecciones posibles al 
seleccionar los contrastes ortogonales, excepto para el ultimo. Es normal que el expe- 
rimentador tenga interes en hacer ciertos contrastes. Ese fue el caso en nuestro ejem- 
plo, donde habfa consideraciones que sugerfan a priori que los agregados (1, 2) y (3, 5) 
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constitman grupos distintos con propiedades diferentes de absorcion, postulado que 
no se sostem'a mucho con la prueba de significancia. Sin embargo, la segunda com- 
paracion apoya la conclusion de que el agregado 4 parecia “destacar” de los demas. 
En este caso, no era necesaria la partition completa de SSA, ya que dos de las cuatro 
comparaciones independientes posibles intervenfan en la mayorfa de variaciones de 
los tratamientos. 

En la figura 13.3 se presenta un procedimiento SAS glm , que muestra el conj un- 
to completo de contrastes ortogonales. Observe que la suma de cuadrados de los 
cuatro contrastes se agrega a la suma de cuadrados de los agregados. Asimismo, 
los ultimos dos contrastes (1 contra 2, 3 contra 5) revelan comparaciones insigni- 
ficantes. 


The GLM Procedure 
Dependent Variable: moisture 




Sum of 




Source 

DF 

Squares 

Mean Square F 

Value Pr 

> F 

Model 

4 

85356.4667 

21339.1167 

4.30 0.0088 

Error 

25 

124020.3333 

4960.8133 



Corrected Total 

29 

209376.8000 




R-Square 

Coeff Var 

Root MSE moisture Mean 


0.407669 


12.53703 

70.43304 

561.8000 


Source 

DF 

Type I SS 

Mean Square 

F Value 

Pr > F 

aggregate 

4 

85356.46667 

21339.11667 

4.30 

0.0088 

Source 

DF 

Type III SS 

Mean Square 

F Value 

Pr > F 

aggregate 

4 

85356.46667 

21339.11667 

4.30 

0.0088 

Contrast 

DF 

Contrast SS 

Mean Square 

F Value 

Pr > F 

(1,2, 3,5) vs. 4 

1 

70035.00833 

70035.00833 

14.12 

0.0009 

(1,2) vs. (3,5) 

1 

14553.37500 

14553.37500 

2.93 

0.0991 

1 vs . 2 

1 

768.00000 

768.00000 

0.15 

0.6973 

3 vs . 5 

1 

0.08333 

0.08333 

0.00 

0.9968 


Figura 13.3: Un conjunto de procedimientos ortogonales. 


13.6 Comparaciones multiples 

El analisis de varianza es un procedimiento poderoso para probar la homogeneidad 
de un conjunto de medias. No obstante, si se rechazara la hipotesis nula y se acepta- 
ra la alternativa que se planted, acerca de que no todas las medias son iguales, aun 
no se sabria cuales de las medias poblacionales son iguales y cuales diferentes. 

En la seccion 13.5 se describe el uso de contrastes ortogonales con la finalidad 
de realizar comparaciones entre conjuntos de niveles de factores o tratamientos. El 
concepto de ortogonalidad permite al analista hacer pruebas que implican contrastes 
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independientes. Asi, puede hacerse la partition de la variation entre los tratamien- 
tos, SSA, en componentes con solo un grado de libertad, y asi atribuir las proportio- 
ns de esta variation a contrastes especificos. Sin embargo, hay situaciones en que 
el empleo de contrastes no es un enfoque apropiado. Es frecuente que sea de interes 
efectuar varias (quiza todas las que sea posible) comparaciones por pares entre 
los tratamientos. En realidad, una comparacion por pares puede verse como un con- 
traste simple, es decir, una prueba de 

H 0 . Pi Pj 

n i ■ Pi Pj 0, 


para toda i =/ j. Todas las comparaciones posibles por pares entre las medias pueden 
ser muy beneficas cuando no se conocen a priori contrastes complejos particulares. 
Por ejemplo, suponga que se desea probar las hipotesis siguientes, con los datos de 
los agregados de la tabla 13.1: 

Hq'- Pi - P5 = 0 , 

Hi- pi p§ 7 ^ 0 , 


Se desarrolla la prueba usando una F o una t, o con el enfoque de los intervalos de 
confianza. Con la t, se tiene que 


V l. ~ Vb. 
s^/2/n 


donde s es la raiz cuadrada del error cuadratico medio, y n = 6 es el tamano de la 
muestra por tratamiento. En este caso 


553.33 - 610.67 
\/496l s/\j3 


-1.41. 


El valor P para la prueba t con 25 grados de libertad es 0.17. Asi, no hay evidencia 
suficiente para rechazar Hq. 


Relacion entre t y F 

En lo sucesivo, analizaremos el empleo de una prueba t agrupada, junto con los 
lineamientos que se estudiaron en el capitulo 10. La estimation de union proviene 
del error cuadratico medio, con la finalidad de aprovechar los grados de libertad 
agrupados a traves de las cinco muestras. Aclemas, probamos un contraste. El lector 
deberia observar que si el valor t esta elevado al cuadrado, el resultado tiene la for- 
ma exacta del valor de / para la prueba del contraste que se examino en la section 
precedente. En efecto, 


, = (m.-ys.) 2 = (553.33 - 610.67) 2 
1 s 2 (l/6 + 1/6) 4961(1/3) ’ 

que es, por supuesto, t 2 . 

Enfoque del intervalo de confianza para una comparacion por pares 


Es facil resolver el mismo problema de una comparacion por pares (o contraste) 
usando el enfoque del intervalo de confianza. Es claro que si se calcula un intervalo 
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de confianza de 100(1 — a)% sobre p\ — p$, se tiene que 

[2 

2/1. - 2/5. ± t a / 2 S]l 

donde t a / 2 es el punto superior de 100(1 — a/2)% de una distribution t con 25 gra- 
dos de libertad (grados de libertad que provienen de s 2 ). Esta conexion inmediata 
entre las pruebas de hipotesis y los intervalos de confianza cleberfa ser notoria a par- 
tir de los analisis que se hicieron en los capftulos 9 y 10. La prueba de un contraste 
simple pi — p§ implica algo no mas alia de observar si el intervalo de confianza 
cubre o no al cero. A1 sustituir los numeros, se tiene lo siguiente como intervalo de 
confianza de 95%: 


(553.33 


610.67) ± 2.060\/4961 


1 

3 


-57.34 ±83.77. 


Asf, como el intervalo de confianza cubre al cero, el contraste no es significativo. 
En otras palabras, no hay diferencia significativa entre las medias de los agregados 
1 y 5. 


Tasa de error por experimento 

Se ha demostrado que un contraste simple (es decir, una comparacion de dos medias) 
se puede hacer utilizando una prueba F, como se vio en la section 13.5, una prue- 
ba t , calculando un intervalo de confianza sobre la diferencia entre las dos medias. 
Sin embargo, hay muchas dificultades cuando el analista intenta hacer varias o todas 
las comparaciones por pares posibles. Para el caso de k medias, habra, clesde luego, 
r = k{k — l)/2 comparaciones por pares posibles. Si se suponen comparaciones in- 
dependientes, la tasa de error por experimento (es decir, la probabilidad del 
rechazo falso de al menos una de las hipotesis) esta dada por 1 — (1 — a ) r , donde 
a es la probabilidad seleccionada del error tipo I para una comparacion especffica. 
Es claro que esta medida del error tipo I del experimento sabio podrfa ser bastante 
grande. Por ejemplo, aun si solo hubiera 6 comparaciones, digamos, en el caso de 4 
medias y a — 0.05, la tasa de error por experimento serfa 

1 - (0.95) 6 « 0.26. 

Junto con la tarea de probar muchas comparaciones por pares, por lo general, hay la 
necesidad de hacer el contraste eficaz sobre una sola comparacion mas conservadora. 
Es decir, usando el enfoque del intervalo de confianza, los intervalos serfan mucho 
mas anchos que ±t a / 2 <S\/ 2 /n, que se emplea para el caso en que se realiza una sola 
comparacion. 


Prueba de Tukey 

Hay varios metodos estandar para realizar comparaciones por pares que den credi- 
bilidad a la tasa del error tipo I. Aquf se analizaran e ilustraran dos de ellos. El pri- 
mero, denominado procedimiento de Tukey, permite la formation de intervalos 
de confianza de (1 — cc) 100% para todas las comparaciones por pares. El metodo se 
basa en la distribution del rango studentizado. El punto apropiado del percentil es 
una funcion de a, k y v = grados de libertad para s. En la tabla A. 12 se presenta 
una lista de puntos porcentuales superiores adecuados para a = 0.05. El metodo de 
Tukey de comparaciones por pares implica encontrar diferencias significativas entre 

las medias i y j [i =/^ j) si | yt. — ijj . | excede q[a, k,v\\J ^ . 
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El procedimiento de Tukey se ilustra con facilidad. Considere un ejemplo hipo- 
tetico en el que se tienen 6 tratamientos, en un diseno completamente aleatorio de 
un solo factor, con 5 observaciones tomadas por tratamiento. Suponga que el error 
cuadratico medio tornado de la tabla del analisis de varianza es s 2 = 2.45 (24 grados 
de libertad). Las medias muestrales estan en orden ascendente, 

2/2. 2/5. i/1. 2/3. 2/6. 2/4. 

14.50 16.75 19.84 21.12 22.90 23.20. 

Con a = 0.05, el valor de 9(0.05, 6, 24) = 4.37. Asf, todas las diferencias absolutas 
tienen que compararse con 



Como resultado, las siguientes representan medias que son diferentes en forma sig- 
nificativa, segun el procedimiento de Tukey: 

4 y 1, 4 y 5, 4 y 2, 6 y 1, 6 y 5, 

6 y 2, 3 y 5, 3 y 2, 1 y 5, 1 y 2. 

;De donde proviene el nivel a. en la prueba de Tukey? 

Se menciono brevemente el concepto de intervalos de conflanza simultaneos 
que se emplean para el procedimiento de Tukey. El lector obtendra una perspectiva 
util del concepto de comparaciones multiples, si comprende lo que se quiere decir con 
intervalos de confianza simultaneos. 

En el capitulo 9 vimos que si se calcula un intervalo de confianza sobre, por 
ejemplo, una media p, entonces la probabilidad de que el intervalo cubra la media 
verdadera p es 0.95. Sin embargo, como lo estudiamos para el caso de compara- 
ciones multiples, la probabilidad efectiva de interes esta ligada con la tasa de error 
por experimento, y debe hacerse enfasis en que los intervalos de confianza del tipo 
yi — yj . ± q[a , k, v\s^/l/n no son independientes, ya que todos implican s y muchos 
utilizan los mismos promedios, las yi.. A pesar de tales dificultades, si se utiliza la 
9(0.05, k, v ), el nivel de confianza simultaneo esta 95% controlado. Lo mismo es cier- 
to para 9(0.01, k, v), es decir, el nivel de confianza esta 99% controlado. En el caso 
de a = 0.05, hay una probabilidad de 0.05 de que se encuentre equivocadamente 
que al menos un par de mediciones son diferentes (rechazo falso de al menos una 
hipotesis). En el caso en que a = 0.01, la probabilidad correspondiente sera 0.01. 


Prueba de Duncan 


El segundo procedimiento que se estudiara se llama procedimiento de Duncan o 
prueba de Duncan de rango multiple. Este procedimiento tambien se basa en 
el concepto general del rango studentizado. El rango de cualquier subconjunto de 
p medias muestrales debe superar cierto valor antes de que se encuentre que cual- 
quiera de las p medias es diferente. Este valor recibe el nombre de rango rmnimo 
significativo para las p medias, y se denota como i?. p , donde 


R v -r p \/ n . 
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Los valores de la cantidad r p , llamados rango mi'nimo signiflcativo studentiza- 
do, dependen del nivel de significancia deseado y del numero de grad os de libertad 
del error cuadratico medio. Estos valores se obtienen de la tabla A. 13, para p = 2, 
3, . . . , 10 medias. 

Para ilustrar el procedimiento de rango multiple, consideremos el ejemplo hipo- 
tetico en el cual se comparan 6 tratamientos con 5 observaciones por tratamiento. 
Este es el mismo ejemplo que se empleo para ilustrar la prueba de Tukey. Se obtiene 
R p multiplicando cada r p por 0.70. Los resultados de estos calculos se resumen como 
sigue: 


p 

2 

3 

4 

5 

6 

r P 

2.919 

3.066 

3.160 

3.226 

3.276 

R P 

2.043 

2.146 

2.212 

2.258 

2.293 


A1 comparar estos rangos menos significativos con las diferencias en medias orclena- 
das, se llega a las conclusiones siguientes: 

1. Como i/ 4 . — 2/2. = 8.70 > Re = 2.293, se concluye que p 4 y P 2 son significativa- 
mente distintas. 

2 . A1 comparar y 4. — y 5. y ye. — y 2. con Re, se concluye que /14 es significati- 
vamente mayor que pe, y Pe es significativamente mayor que p2- 

3 . A1 comparar y 4. — y 1., ye. — ye. y ye. — 2/2. con R4, se concluye que cada dife- 
rencia es significativa. 

4 . A1 comparar y 4. — ye. , ye. — y 1 ., ye. — ye y y 1 . — y 2 . con Re, se encuentra que 
todas las diferencias son significativas excepto P 4 — pe ■ Por lo tanto, pe, P 4 y 
pe constituyen un subconjunto de medias homogeneas. 

5 . A1 comparar y 3 . — y\_, y 1 — ye. y y 5 . — IJ2. con R2, se concluye que solo pe 
y pi no son significativamente distintas. 

Se acostumbra a resumir las conclusiones anteriores con el dibujo de una lfnea de- 
bajo de cualquier subconjunto de medias adyacentes que no sean significativamente 
distintas. Asf, tenemos 

2/2. 2/5. 2/1. 2/3. 2/6. 2/4. 

14.50 16.75 19.84 21.12 22.90 23.20 

En este caso, queda claro que los resultados con los procedimientos de Tukey y Dun- 
can son muy similares. El procedimiento de Tukey no detecto ninguna diferencia 
entre 2 y 5; mientras que el de Duncan sf lo hizo. 


13.7 Comparacion de los tratamientos con un control 

En muchos problemas cientfficos y de ingenierfa, no nos interesa hacer inferencias 
acerca de todas las comparaciones posibles entre las medias de los tratamientos, del 
tipo pi — pj. En vez de ello, es frecuente que el experimento clicte la necesidad 
de comparar simultaneamente cada tratamiento con un control. Un procedimiento de 
prueba desarrollado por C. W. Dunnett determina diferencias significativas entre 
cada media de tratamiento y el control, con un solo nivel conjunto de significancia, a. 
Para ilustrar el procedimiento de Dunnet, se consideraran los datos experimentales 
de la tabla 13.6, para la clasificacion de un solo factor, donde se estudio el efecto de 
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Ejemplo 13.5:1 

Solucion: 


Tabla 13.6: Producto de una reaccion 


Control 

Catalizador 1 

Catalizador 2 

Catalizador 3 

50.7 

54.1 

52.7 

51.2 

51.5 

53.8 

53.9 

50.8 

49.2 

53.1 

57.0 

49.7 

53.1 

52.5 

54.1 

48.0 

52.7 

54.0 

52.5 

47.2 

2/o. = 51.44 

i/I. = 53.50 

y 2 = 54.04 

2 / 3 . = 49.38 


tres catalizadores sobre el producto de una reaccion. Como control se emplea un 
cuarto tratamiento, no catalizador. 

En general, se desea probar las k hipotesis 


Ho- Po — Pi 
H\'- po 7 ^ Pi 


i = 1 , 2 , . . . , k, 


donde po representa la respuesta media para la poblacion de medidas en que se 
utiliza el control. Se espera que sigan siendo validas las suposiciones habituales del 
analisis de varianza, como se menciono en la section 13.3. Para probar la hipotesis 
nula especificada con Hq contra las alternativas bilaterales para una situation expe- 
rimental donde existen k tratamientos, sin incluir el control, y n observaciones por 
tratamiento, primero calculamos los valores 


j Vi. ~ 2/o. 
di = — . , 


i = 1 , 2 , . . . , k. 


A1 igual que antes, la varianza muestral s 2 se obtiene a partir del error cuadratico 
medio del analisis de varianza. Ahora, la region critica para rechazar Hq, con el nivel 
de significance a, se establece con la desigualdad 


\di\ > d a/2 (k,v), 


donde v es el numero de grados de libertad para el error cuadratico medio. Los va- 
lores de la cantidad d a / 2 (k, v ) para una prueba de dos colas, estan dados en la tabla 
A. 14 para a = 0.05 y a = 0.01, para diversos valores de k y v. 


Para los clatos de la tabla 13.6, pruebe la hipotesis que compara cada catalizador 
con el control, usando alternativas bilaterales. Como nivel de significance conjunto 
elija a = 0.05. 

El error cuadratico medio con 16 grados de libertad se obtiene de la tabla de analisis 
de varianza, con todos los k + 1 tratamientos. El error cuadratico medio esta dado 
por 


s 


2 


36.812 

16 


2.30075, 


y 
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Entonces, 


rf-, — 

53.50 - 51.44 

= 2.147, 

a\ — 

0.9593 

d 2 = 

54.04 - 51.44 

= 2.710, 

0.9593 

d3 = 

49.38 - 51.44 

= -2.147. 

0.9593 


De la tabla A. 14, el valor crftico para a = 0.05 resulta ser 


rfo .025 (3, 16) = 2.59. 


Como | d\ | < 2.59 y | \ < 2.59, se concluye que tan solo la respuesta media para el 

catalizador 2 es significativamente distinta de la respuesta media de la reaction que 
utiliza el control. 

Muchas aplicaciones practicas imponen la necesidad de una prueba de una cola 
para comparar tratamientos con un control. En efecto, si un farmacologo desea compa- 
rar varias dosis de un medicamento con el efecto de reducir el nivel de colesterol, 
y su control consiste en no usar ninguna dosis, seria de interes determinar si cada 
una de estas produce una reduction significativamente mayor que la del control. En 
la tabla A. 15 se presentan los valores crfticos de d a (k, v ) para alternativas de una 


cola. 


Ej ercicios 

13.11 Considere los datos del ejercicio de repaso 13.58 
de la pagina 568. Efectue pruebas de significancia sobre 
los siguientes contrastes: 

a) B contra A, C y D; 

b) C contra Ay D\ 

c) A contra D. 

13.12 El Departamento de Alimentation y Nutrition 
Humanas, del Instituto Politecnico y Universidad Es- 
tatal de Virginia, realizo el estudio Loss of Nitrogen 
Through Sweat by Preadolescent Boys Consuming 
Three Levels of Dietary Protein , para determinar la 
perdida de nitrogeno por transpiration con varios nive- 
les dieteticos de protemas. En el experimento se utiliza- 
ron 12 hombres preadolescentes cuyas edades iban de 
7 anos 8 meses a 9 anos 8 meses, y a quienes se les juzgo 
estar saludables. Cada muchacho estuvo sujeto a una 
de tres dietas controladas en las cuales consunn'a 29, 54 
u 84 gramos de protemas por di'a. Los siguientes datos 
representan la perdida de nitrogeno del cuerpo a traves 
de la transpiration, en miligramos, recabados durante 
los dos dfas ultimos del periodo de experimentation: 


Nivel de protemas 

29 Gramos 54 Gramos 84 Gramos 


190 

318 

390 

266 

295 

321 

270 

271 

396 


438 

399 


402 



a) Ejecute un analisis de varianza con un nivel de sig- 
nificancia de 0.05, para demostrar que las perdidas 
medias de nitrogeno a traves de la transpiration son 
diferentes con los distintos niveles de protemas. 

b) Emplee un contraste de un grado de libertad con 
a = 0.05 para comparar la perdida media de nitrogeno 
por la transpiration, en muchachos que consumen 
29 gramos de protemas por dfa contra quienes con- 
sumen 54 y 84 gramos. 

13.13 El proposito del estudio The Incorporation of 
a Chelating Agent into a Flame Retardant Finish of a 
Cotton Flannelette and the Evaluation of Selected Fa- 
bric Properties, llevado a cabo por el Instituto Politec- 
nico y Universidad Estatal de Virginia, fue evaluar el 
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uso de un agente quelante como parte del acabado re- 
tardante de fuego de la franela algodon, determinando 
sus efectos en la inflamabilidad despues de lavar la tela 
en condiciones especi'ficas. Se prepararon dos banos, 
uno con celulosa de carboximetilo y otro sin ella. Se 
lavaron 12 piezas de tela 5 veces en el bano I; y otras 12 
en el mismo tipo de bano pero 10 veces. Esto se repitio 
con 24 piezas adicionales de tela en el bano 11 . Despues 
de los lavados, se midieron las longitudes quemadas de 
la tela, asf como los tiempos de combustion. Por conve- 
niencia, se definieron los siguientes tratamientos: 

Tratamiento 1: 5 lavados en el bano I, 

Tratamiento 2: 5 lavados en el bano II, 

Tratamiento 3: 10 lavados en el bano I, 

Tratamiento 4: 10 lavados en el bano II. 

Los registros del tiempo de combustion, en segundos, 
son los siguientes: 


Tratamiento 


1 

2 

3 

4 

13.7 

6.2 

27.2 

18.2 

23.0 

5.4 

16.8 

8.8 

15.7 

5.0 

12.9 

14.5 

25.5 

4.4 

14.9 

14.7 

15.8 

5.0 

17.1 

17.1 

14.8 

3.3 

13.0 

13.9 

14.0 

16.0 

10.8 

10.6 

29.4 

2.5 

13.5 

5.8 

9.7 

1.6 

25.5 

7.3 

14.0 

3.9 

14.2 

17.7 

12.3 

2.5 

27.4 

18.3 

12.3 

7.1 

11.5 

9.9 


a) Efectue un analisis de varianza con un nivel de sig- 
nificancia de 0.01, y determine si hay diferencias 
significativas entre las medias de los tratamientos. 

b) Use contrastes de un solo grado de libertad con a = 
0.01 para comparar el tiempo medio de combustion 
del tratamiento 1 contra el tratamiento 2, y tam- 
bien del tratamiento 3 contra el 4. 

13.14 Eniplee la prueba de Tukey con un nivel de 
significancia de 0.05, para analizar las medias de 5 
marcas distintas de los comprimidos para el dolor de 
cabeza del ejercicio 13.4, en la pagina 521. 

13.15 Para los datos del ejercicio de repaso 13.58 de 
la pagina 568, lleve a cabo la prueba de Tukey con un 
nivel de significancia de 0.01, para determinar cuales 
laboratories difieren, en promedio, en sus analisis. 

13.16 Se realizo una investigation para determinar 
la fuente de reduction del producto de cierto reactivo 
qufmico. Se sabfa que la perdida de producto ocurrfa 
en el licor madre, es decir, el material eliminado en 
la etapa de filtration. Se intufa que mezclas distintas 
del material original podrfan ocasionar reducciones di- 
ferentes del producto en la etapa de licor madre. A 
continuation se presentan los resultados de la reduc- 


tion porcentual para tres lotes de cada una de cuatro 
mezclas seleccionadas. 


Mezcla 


1 

2 

3 

4 

25.6 

25.2 

20.8 

31.6 

24.3 

28.6 

26.7 

29.8 

27.9 

24.7 

22.2 

34.3 


a) Haga un analisis de varianza con nivel de significan- 
cia de a = 0.05. 

b) Utilice la prueba de Duncan de rango multiple para 
determinar que mezclas difieren. 

c) Resuelva el inciso 6) usando la prueba de Tukey. 

13.17 En el estudio efectuado en el rio Jackson, de- 
nominado An Evaluation of the Removal Method for 
Estimating Benthic Populations and Diversity , efectua- 
do por el Instituto Politecnico y Universidad Estatal 
de Virginia, se emplearon 5 procedimientos distintos de 
muestreo para determinar el total de especies. Se se- 
leccionaron 12 muestras al azar y los 5 procedimientos 
de muestreo se repitieron 4 veces. Se registraron los 
conteos de especies, como sigue: 


Procedimiento de muestreo 


Dismi- 

nucion 

De Hess 
modi- 
ficado 

Surber 

Remocion 
del sustrato, 
de Kicknet 

Kicknet 

85 

75 

31 

43 

17 

55 

45 

20 

21 

10 

40 

35 

9 

15 

8 

77 

67 

37 

27 

15 

a) fHay 

diferencia significativa en el conteo prome- 


dio de especies para los distintos procedimientos de 
muestreo? En su conclusion use un valor P. 
b) Emplee una prueba de Tukey con a = 0.05 para de- 
terminar cuales son los procedimientos de muestreo 
que difieren. 

13.18 Los datos siguientes son valores de presion 
(psi) en un resorte de torsion para valores distintos del 
angulo entre las vueltas del resorte en position fibre. 



Para el experimento, calcule un analisis de varianza de 
un solo factor, y de su conclusion acerca del efecto que 
tiene el angulo sobre la presion en el resorte. (C. R. 
Hicks, Fundamental Concepts in the Design of Experi- 
ments, Holt, Rinehart y Winston, Nueva York, 1973). 

13.19 En el siguiente experimento de biologfa se em- 
plearon 4 concentraciones de cierto producto qufmico 
para mejorar el crecimiento de cierto tipo de planta du- 
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rante el transcurso del tiempo. Se utilizaron cinco plan- 
tas con cada concentration, y se midio su crecimiento, en 
centi'metros. Se obtuvieron los datos siguientes y tam- 
bien se aplico un control (ausencia de producto quunico) 


Concentration 


Control 

1 

2 

3 

4 

6.8 

8.2 

7.7 

6.9 

5.9 

7.3 

8.7 

8.4 

5.8 

6.1 

6.3 

9.4 

8.6 

7.2 

6.9 

6.9 

9.2 

8.1 

6.8 

5.7 

7.1 

8.6 

8.0 

7.4 

6.1 


Utilice una prueba bilateral de Dunnet con un nivel de 
significancia de 0.05 para comparar de manera simulta- 
nea las concentraciones con el control. 

13.20 La tabla siguiente (A. Hald, Statistical Theory 
with Engineering Applications, John Wiley & Sons, 
New York, 1952) proporciona las resistencias a la ten- 
sion de desviaciones a partir de la 340, para conduc- 
tores extrai'dos de nueve cables que deben usarse para 
una red de alto voltaje. Cada cable esta constituido por 
12 conductores. Se desea saber si las resistencias medias 
de los conductores en los nueve cables son las mismas. 
Si los cables son diferentes, ^cuales son los que difieren? 
En su analisis de varianza utilice un valor P. 

Cable Resistencia a la tension 


1 

5 

-13 

-5 

-2- 

-10 

-6 

-5 

0 

-3 

2 

-7 

-5 

2 

-11 

-13 

-8 

8 

-3 

-12 

-12- 

-10 

5- 

-6 

-12 

-10 

3 

0 

-10 

-15- 

-12 

-2 

-8 

-5 

0 

-4- 

-1 

-5 

-11 

4 

-12 

4 

2 

10 

-5 

-8 

-12 

0 

-5- 

-3 

-3 

0 

5 

7 

1 

5 

0 

10 

6 

5 

2 

0- 

-1 

-10 

-2 

6 

1 

0 

-5 

-4 

-1 

0 

2 

5 

1 - 

-2 

6 

7 

7 

-1 

0 

2 

1 

-4 

2 

7 

5 

1 

0 

-4 

2 

8 

-1 

0 

7 

5 

10 

8 

1 

2 

-3 

6 

0 

5 

9 

2 

6 

7 

8 

15 

11 

-7 

7 

10 

7 

8 

1 


13.21 La information de salida de la figura 13.4 de 
la pagina 536 presenta la prueba de Duncan usando 
PROC glm en sas, para los datos de agregados del ejem- 
plo 13.1. Saque conclusiones acerca de comparaciones 
por pares con el empleo de resultados de la prueba de 
Duncan. 

13.22 La estructura financiera de una empresa con- 
siste en la forma en que los activos de esta se dividen 
entre propios y de deuda, y el apalancamiento finan- 
ciero se refiere al porcentaje de activos financiados con 
endeudamiento. En el arti'culo The Effect of Finan- 
cial Leverage on Return, Tai Ma, del Instituto Poli- 


tecnico y Universidad Estatal de Virginia, afirma que 
es posible utilizar el apalancamiento financiero para 
incrementar la tasa de rendimiento sobre el capital. 
Dicho de otra manera, los accionistas pueden recibir 
rendimientos mas elevados sobre el capital propio con 
la misma cantidad de inversion, si usan apalancamien- 
to financiero. Los siguientes datos muestran las tasas 
de rendimiento sobre el capital con el uso de 3 niveles 
distintos de apalancamiento financiero, asi como un ni- 
vel de control (deuda igual a cero) para 24 empresas 
seleccionadas al azar. 


Apalancamiento financiero 


Control 

Bajo 

Medio 

Alto 

2.1 

6.2 

9.6 

10.3 

5.6 

4.0 

8.0 

6.9 

3.0 

8.4 

5.5 

7.8 

7.8 

2.8 

12.6 

5.8 

5.2 

4.2 

7.0 

7.2 

2.6 

5.0 

7.8 

12.0 


Fuente : Standard & Poor’s Machinery 
Industry Survey, 1975. 

a) Haga el analisis de varianza con un nivel de signifi- 
cancia de 0.05. 

b) Use una prueba de Dunnet con un nivel de signifi- 
cancia de 0.01, para determinar si las tasas medias 
de rendimiento sobre el capital propio, con los nive- 
les bajo, medio y alto de apalancamiento financiero, 
son mayores que con el nivel de control. 

13.23 Se sospecha que la temperatura ambiente en 
que operan las baterfas afecta su vida. Se probaron 
30 baterfas homogeneas, seis por cada una de cinco 
temperaturas, y los datos se presentan a continuation 
(vida activada, en segundos). Analice e interprete los 
datos. (C. R. Hicks, Fundamental Concepts in Design 
of Experiments, Holt, Rinehart y Winston, Nueva 
York, 1973.) 


Temperatura (°C) 


0 

25 

50 

75 

100 

55 

60 

70 

72 

65 

55 

61 

72 

72 

66 

57 

60 

72 

72 

60 

54 

60 

68 

70 

64 

54 

60 

77 

68 

65 

56 

60 

77 

69 

65 


13.24 Realice la prueba de Duncan para compara- 
ciones por pares con los datos del ejercicio 13.8 de la 
pagina 523. Comente los resultados. 


13.8 Comparacion de un conjunto de tratamientos por bloques 

En la section 13.2 estudiamos la idea de formar bloques, es decir, de aislar conjuntos 
de unidades experiment ales que fueran razonablemente homogeneas para asignarles 
tratamientos al azar. Esta es una extension del concepto de “formar pares” que se 
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The GLM Procedure 

Duncan’s Multiple Range Test for moisture 
NOTE: This test controls the Type I comparisonwise error rate, 
not the experimentwise error rate. 

Alpha 0.05 

Error Degrees of Freedom 25 

Error Mean Square 4960.813 

Number of Means 2345 

Critical Range 83.75 87.97 90.69 92.61 


Means with the same letter are not significantly different. 


Duncan Grouping 
A 
A 
A 
A 
A 
A 
A 

B 


Mean 

610.67 

610.50 

569.33 

553.33 
465.17 


N 

6 

6 

6 

6 

6 


aggregate 

5 

3 
2 
1 

4 


Figura 13.4: Salida de SAS para los ejercicios 13.21. 


analizo en los capi'tulos 9 y 10, y se hace para reducir el error experimental, ya que 
las unidades en los mismos bloques tienen caracteri'sticas que son mas comunes que las 
unidades localizadas en diferentes bloques. 

El lector no deberi'a considerar a los bloques como un segundo factor, aunque esa 
sea una forma tentadora de visualizar el diseno. La realidad es que el factor principal 
(los tratamientos) aun lleva el peso mayor del experimento. Las unidades experi- 
mentales todavi'a son la fuente del error, igual que en el diseno completamente al 
azar. Con la formation de bloques tan solo se trata a dichas unidades de manera mas 
sistematica. De ese modo, se dice que la aleatoriedad tiene restricciones. Por ejem- 
plo, para un experimento qufmico disehado para determinar si hay una diferencia en 
la reaction media producida por cuatro catalizadores, las muestras de los materiales 
que tienen que probarse se extraen de los mismos lotes de materias primas, a la vez que 
se mantienen constantes otras condiciones como la temperatura y concentration 
de los reactivos. En este caso, la hora del dfa en que se efectuan los experimentos 
podri'a representar las unidades experimentales, y si el experimentador considera 
que es posible que haya un efecto leve del tiempo, hari'a aleatoria la asignacion de 
los catalizadores a los experimentos, de manera que se contrarreste la tendencia 
posible. Este tipo de estrategia experimental es el diseno completamente alea- 
torio. Como otro ejemplo de dicho diseno, considere un experimento para comparar 
cuatro metodos para medir una propiedad fisica en particular de una sustancia fluida. 
Suponga que el proceso de muestreo es destructive, es decir, que una vez que se ha 
medido una muestra de la sustancia usando un metodo, ya no puede medirse con 
ningun otro. Se decidio que con cada metodo habri'an de tomarse 5 mediciones, por 
lo que se seleccionaron al azar 20 muestras de un lote grande y se utilizaron en el 
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experimento para comparar los cuatro dispositivos de medicion. Las unidades expe- 
rimentales son las muestras seleccionadas al azar. Cualquier variation de una mues- 
tra a otra aparecera en la variation del error, segun se mida con s 2 en el analisis. 


^Cual es el proposito de formar bloques? 

Si la variation debida a la heterogeneidad de unidades experimentales fuera tan 
grande que la sensibilidad de detectar diferencias en el tratamiento se redujera a un 
valor inflado de s 2 , un plan mejor seria “bloquear” la variation debida a dichas uni- 
dades, para reducir asi la variation externa a aquella considerada por bloques mas 
pequenos o mas homogeneos. Por ejemplo, suponga que en la ilustracion anterior de 
los catalizadores, se supiera a priori que existe en definitiva un efecto significati- 
ve diario sobre el producto, y que es posible medir el producto para cuatro catali- 
zadores en un clia especifico. En vez de asignar los 4 catalizadores a las 20 corridas 
de prueba completamente al azar, se eligen, por decir algo, 5 dias y se prueba cada 
uno de los cuatro catalizadores en cada dia, asignando al azar estos a las corridas 
dentro de los dias. De esta manera, se eliminaria del analisis la variation diaria y, en 
consecuencia, el error experimental, que aun incluye cualquier tendencia temporal 
dentro de los dias , representa con mas precision la variation probabilistica. Se hace 
referencia a cada dia como un bloque. 

La manera mas directa de los disenos aleatorios de bloques es aquella donde se 
asigna al azar un tratamiento por vez a cada bloque. Un plan experimental asi 
se denomina diseno por bloques completamente aleatorio, y cada bloque cons- 
tituye una sola replica de los tratamientos. 


13.9 Disenos por bloques completamente aleatorios 

Un plan clasico del diseno por bloques completamente aleatorio (bca) con tres me- 
diciones en cuatro bloques, es el siguiente: 


Bloque 1 Bloque 2 Bloque 3 Bloque 4 


^2 


tl 


£3 


h 

tl 


£3 


^2 


h 

^3 


^2 


tl 


t3 


Las t denotan la asignacion de cada uno de tres tratamientos a los bloques. Por 
supuesto, la asignacion verdadera de los tratamientos a las unidades dentro de los 
bloques se hace al azar. Una vez que ha finalizado el experimento, los datos se regis- 
tran en el arreglo de 3 x 4 que se presenta a continuation: 


Tratamiento Bloque: 

1 

2 

3 

4 

1 

yn 

2/12 

2/13 

2/14 

2 

2/21 

2/22 

2/23 

2/24 

3 

2/31 

2/32 

2/33 

2/34 


donde yn representa la respuesta que se obtiene con usando el tratamiento 1 en el 
bloque 1, yi 2 es la respuesta por usar el tratamiento 1 en el bloque 2 , . . . , y 1/34 es la 
respuesta por emplear el tratamiento 3 en el bloque 4. 
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Ahora vamos a generalizar y a considerar el caso de k tratamientos asignados a b 
bloques. Los datos se resumen como se observa en el arreglo rectangular de k x b de 
la tabla 13.7. Se supondra que las y i: j, i = 1, 2, . . . , b, son valores de variables alea- 
torias independientes que tienen distribuciones normales con medias pij y varianza 
comun <r 2 . 


Tabla 13.7: 

Arreglo de k 

x b para 

el Diseno de bca 




Bloque: 




Tratamiento 

1 

2 

3 

b 

Total Media 

1 

yu 

2/12 

2/ij ' ' ' 

2/16 

Ti. 

2/i. 

2 

V21 

2/22 

2/2/ 

2/26 

t 2 . 

V2. 

i 

yn 

Vi2 

2 hj 

yib 

Ti. 

Vi- 

k 

Vki 

Vk2 ■■■ 

Vkj 

Vkb 

T k . 

Vk. 

Total 

Ti 

T.2 • • • 

T 

1 0 

Tb 

T 


Media 

y. i 

y .2 ■■■ 

y.j • • • 

y.b 


y .. 


Sea que pi represente el promedio (en vez del total) de las b medias poblacionales 
para el ?’-esimo tratamiento. Es clecir, 


Pi. 


1 

b 



De manera similar, el promedio de las medias poblacionales para el j-esimo bloque, 
Pj, esta definido por 



i— 1 


y el promedio de las bk medias poblacionales, p , esta definido por 


P 




z=i j = i 


Para determinar si parte de la variation de nuestras observaciones se debe a diferen- 
cias entre los tratamientos, se considera la prueba 


Hipotesis de 
medias iguales 
de los tratamientos 


! 

H 0 : pi. = P2. = • • • = p, 

H\: No todas las pi son iguales. 


Modelo para el diseno bca 

Cada observacion puede escribirse en la forma siguiente: 

Vij — Pij Cij • 
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donde ey mide la desviacion del valor observado yij de la media poblacional pij. La 
forma preferida de esta ecuacion se obtiene al sustituir 

Pij = p + Q-i + (3j , 

donde on es, como antes, el efecto del Lesimo tratamiento, y fij es el efecto el j-esimo 
bloque. Se supone que el tratamiento y los efectos de los bloques son aditivos. Por 
lo tanto, puede escribirse 


Vij — P + + Pj + £ij . 

Observe que el modelo se parece al de clasificacion de un solo factor; la diferencia 
esencial es la introduction del efecto de bloque (3j. El concepto basico se parece mu- 
cho al de la clasificacion de un solo factor, excepto que en el analisis debe tenerse en 
cuenta el efecto adicional debido a los bloques, ya que ahora la variation en dos di- 
recciones se controla de manera sistematica. Y si imponemos las restricciones de que 

fc b 

E^ = ° y E^ = 0 ’ 

i = 1 j = 1 


entonces 


y 



b 

E(m + + Pj) = 

j - 1 


P + CXi 


p.j — j: Tip + a i + Pj) — p + Pj- 

La hipotesis nula de que las medias de los k tratamientos p\ son iguales y, por ello, 
iguales a p, ahora es equivalente a probar las hipotesis: 

/ 

H 0 : ol\ = 02 = • • • = cxk = 0, 

/ 

Hp. Al menos una de las at no es igual a cero. 

Cada una de las pruebas sobre los tratamientos se basara en comparar estimadores 
independientes de la varianza comun poblacional cr 2 . Dichos estimadores se obten- 
dran con el desglose de la suma total de cuadrados de los datos en tres componentes, 
usando la siguiente identidad: 


Teorema 13.3: 



La demostracion se deja como ejercicio para el lector. 
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La identidad de la suma de cuadrados se representa simbolicamente con la ecua- 
cion 

SST = SSA + SSB + SSE. 

donde 

k b 

sst = — y ,.) 2 = suma total de cuadrados, 

i= i j= i 
k 

SSA = — y. ) 2 = suma de los cuadrados de los tratamientos, 

i= 1 
6 

SSB = — y.) 2 = suma de los cuadrados de los bloques, 

3 = i 
k b 

sse = yij — yi — y j + y ..) 2 = suma de los cuadrados de los errores. 

*= i 3=1 


A1 seguir el procedimiento bosquejado en el teorema 13.2, donde se interpreta la 
suma de cuadrados como funciones de las variables aleatorias independientes, Yu, 
Y 12 , ■ ■ ■ , Ykb , puede demostrarse que los valores esperados de las sumas de los cua- 
drados de los tratamientos, los bloques y los errores estan dadas por 

k 

E{ssa) — (k - 1 )ct 2 + fcy^a 2 , 

»= l 
b 

E(SSB) — (b - l)cr 2 + fc y^/3 2 , 

3=1 

E(sse) = (b — 1 )(fc - l)er 2 . 

Como en el caso del problema de un solo factor, tenemos que el cuadrado de la me- 
dia del tratamiento es 

, SSA 

Sl = fc - 1' 


Si los efectos del tratamiento ai = ol^ = ■ • • = a*, = 0, entonces s\ es un estimador 
insesgado de cr 2 . Sin embargo, si los efectos de los tratamientos no son todos iguales 
a cero, se tiene que 


Media cuadratica 
esperada del 
tratamiento 


E 


SSA 


= o 2 + 


aY 


OL, , 


i= 1 


y s 2 sobrestima o 2 . Un segundo estimador de cr 2 , con base en b — 1 grados de liber- 
tad, es 

9 SSB 


El estimador s 2 es uno insesgado de o 2 si los efectos de los bloques /3i = /?2 = • • • = 
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= 0. Si no todos los efectos de los bloques son iguales a cero, entonces, 


E 


SSB 

6-1 


cti + 


— YP 

b — i 

3 = 1 


y s 2 sobrestimara er 2 . Un tercer estimador de er 2 , con base en (k — 1)(6 — 1) grados 
de libertad e independiente de s\ y s 2 , es 


s 2 = 


SSE 


(k — 1)(6 — 1) : 


que es insesgado sin que importe la verclad o falsedad de cualquier hipotesis nula. 

Para probar la hipotesis nula de que los efectos de los tratamientos son iguales a 
cero, se calcula la razon f\ = s 2 /,s 2 , que es un valor de la variable aleatoria F\ que 
tiene una distribution F con k — 1 y (k — 1)(6 — 1) grados de libertad, cuando la 
hipotesis nula es verdadera. La hipotesis nula se rechaza con el nivel de significancia 
a cuando 


fi > fa[k — 1, (fc — 1)(6 — 1)]. 

En la practica, primero calculamos SST , ssa y ssb y, despues, utilizando la iden- 
tidad de la suma de cuadrados, se obtiene SSE mediante una resta. Los grados de 
libertad asociados con sse, por lo general, tambien se obtienen por sustraccion; es 
decir, 


(k - 1)(6 - 1) = kb - 1 - {k - 1) - (6 - 1). 

En la tabla 13.8 se resumen los calculos necesarios en un problema de analisis de 
varianza para un problema de diseho de bloques completamente aleatorio. 


Tabla 13.8: Analisis de varianza para el diseho de bloques completamente aleatorios 


Fuente de 

Suma de 

Grados de 

Media 

f 

variacion 

cuadrados 

libertad 

cuadratica 

calculada 

Tratamientos 

SSA 

k - 1 

„2 _ SSA 

6 1 — k-1 

/i = S 

Bloques 

SSB 

6-1 

.2 _ SSB 
s 2 ~ 


Error 

SSE 

(fc - 1)(6 — 1) 

„2 SSE 

s - (k-l)(b-l) 


Total 

SST 

kb — 1 




Ejemplo 13.6:1 Estan en consideration cuatro maquinas diferentes, Mi, M 2 y M3, para ensamblar 
un producto especffico. Se decidio que para comparar las maquinas deben utilizarse 
6 operadores distintos en un experimento por bloques completamente aleatorios. Las 
maquinas se asignan al azar a cada operador. La operation de las maquinas requiere 
destreza fisica, y se anticipa que habra una diferencia en la velocidad con que los 
operadores trabajan con las maquinas (vease la tabla 13.9). Se registro la cantidad 
de tiempo (en segundos) que tomo ensamblar el producto: 

Pruebe la hipotesis Hq de que con un nivel de significancia de 0.05, las maquinas se 
desempenan con la misma velocidad media. 
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Tabla 13.9: Tiempo, en segundos, para ensamblar el producto 


Maquina 



Operador 



Total 

1 

2 

3 

4 

5 

6 

1 

42.5 

39.3 

39.6 

39.9 

42.9 

43.6 

247.8 

2 

39.8 

40.1 

40.5 

42.3 

42.5 

43.1 

248.3 

3 

40.2 

40.5 

41.3 

43.4 

44.9 

45.1 

255.4 

4 

41.3 

42.2 

43.5 

44.2 

45.9 

42.3 

259.4 

Total 

163.8 

162.1 

164.9 

169.8 

176.2 

174.1 

1010.9 


Solucion: H 0 : a\ = a 2 = 0:3 = ctq = 0 (los efectos de las maquinas son iguales a cero) 

Hp. al menos una de las at no es igual a cero. 

Para realizar el analisis que aparece en la tabla 13.10 se emplean las formulas de 
la suma de cuadrados y los grados de libertad que se muestran en la pagina 540. El 
valor / = 3.34 es significativo con P = 0.048. Si se emplea a = 0.05 como al menos 
una aproximacion burda, se concluye que las maquinas no se desempenan con la 
misma velocidad media. 


Tabla 13.10: 

Analisis de 

varianza para 

los datos de la tabla 13.9 

Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Medias al 
cuadrado 

/ 

calculada 

Maquinas 

15.93 

3 

5.31 

3.34 

Operadores 

42.09 

5 

8.42 


Error 

23.84 

15 

1.59 


Total 

81.86 

23 




Comentarios adicionales acerca de la formacion de bloques 

En el capitulo 10 presentamos un procedimiento para comparar las medias cuando 
las observaciones estaban por pares. El procedimiento implicaba “restar” el efec- 
to clebido a la paridad homogenea para as! trabajar con las diferencias. Este es un caso 
especial de diseno por bloques completamente aleatorio con k = 2 tratamientos. Las 
n unidades homogeneas a las cuales fueron asignados los tratamientos adoptaban el 
papel de bloques. 

Si hay heterogeneidad en las unidades experimentales, el experimentador no de- 
beri'a cometer el error de creer que siempre tiene ventajas reducir el error experimen- 
tal al utilizar bloques pequenos homogeneos. La verdad es que hay circunstancias en 
las que no es deseable formar bloques. El proposito de reducir la varianza del error 
es incremental' la sensibilidad de la prueba para detectar diferencias en las medias 
de los tratamientos. Esto se refleja en la potencia del procedimiento de prueba. (En 
la seccion 13.13 se analiza con mayor amplitud la potencia del procedimiento de 
prueba del analisis de varianza.) La potencia para detectar ciertas diferencias entre 
las medias de los tratamientos se incrementa con una disminucion de la varianza del 
error. Sin embargo, la potencia tambien se ve afectada por los grados de libertad con 
los que se estima la varianza, y la formacion de bloques reduce los grados de libertad 


Media poblacional 
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Tratamientos 


b) 


Figura 13.5: Medias poblacionales para a) resultados aditivos y 6) efectos de la interaction. 


de que se dispone para la clasificacion de un solo factor, desde k(b — 1) hasta (k — 1) 
(6 — 1). De modo que si no hubiera una reduction significativa de la varianza del 
error, con la formation de bloques podria perderse potencia. 


Interaction entre bloques y tratamientos 

Otra suposicion importante que esta implicita en la escritura del modelo, para un 
diseiio por bloques completamente aleatorio, es que se supone que los efectos de los 
bloques y el tratamiento son aditivos. Esto equivale a decir que 

l^ij f^ij' — ki' j k'i' j' O bien, / / v y f^i'j — i^ij' l^t'j ' 5 

para cada valor de i, i ! , j y f. Es decir, la diferencia entre las medias poblacionales pa- 
ra los bloques j y j' es la misma para cada tratamiento, y la diferencia entre las 
medias poblacionales para los tratamientos i e i' es la misma para cada bloque. 
Las li'neas paralelas de la figura 13.5a) ilustran un conjunto de respuestas medias 
para las cuales los efectos del tratamiento y los bloques son aditivas; mientras que 
las lfneas que se intersecan, en la figura 13.56), muestran una situation en que di- 
chos efectos interactuan. En relation con el ejemplo 13.6, si el operador 3 es en 
promedio 0.5 segundos mas rapido que el operador 2 cuando utiliza la maquina 1, 
entonces el operador 3 en promedio sera 0.5 mas rapido que el operador 2 cuando se 
empleen las maquinas 2, 3 o 4. En muchos experimentos, no se cumple la suposicion 
de aditividad y el analisis de la section 13.9 llevarfa a conclusiones erroneas. Por 
ejemplo, suponga que el operador 3 es 0.5 segundos mas rapido, en promedio, que 
el operador 2 si emplea la maquina 1; pero 0.2 segundos mas lento, en promedio, 
que el operador 2 si utiliza la maquina 2. En ese caso, los operadores y las maquinas 
estarfan interactuando. 

El analisis de la tabla 13.9 sugiere la posibilidad de la interaction. Esta puede ser 
real o deberse al error experimental. El analisis del ejemplo 13.6 se baso en la supo- 
sicion de que la interaction aparente se debfa por complete al error experimental. Si 
la variabilidad total de nuestros datos se debiera en parte al efecto de la interaction, 
esa fuente de variation formarfa parte de la suma de los cuadrados de los errores, lo 
que ocasionarfa que el error cuadratico medio sobrestimara er 2 , con lo que 
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se incrementan'a la probabilidad de cometer un error del tipo II. De hecho, se habri'a 
adoptado un modelo incorrecto. Si ( a0)ij denotara el efecto de la interaccion del 
i-esimo tratamiento y el j-esimo bloque, un modelo mas adecuado tendri'a la forma 
siguiente: 


Vij — P ~b OL-i f3j ~\r -t~ , 


al que se impondn'an las restricciones adicionales 

k b 

= = °- 
i=l j= 1 

Ahora, es facil comprobar que 


E 


SSE 

(b-l)(k-l) 


= cr“ + 


1 

(6 -!)(*-!) 


k b 


i= 1 i=i 


2 

ir 


Asi, el error cuadratico medio es visto como un estimador insesgado de er 2 cuan- 
do se ha ignorado la interaccion existente. En este momento, parece necesario 
llegar a un procedimiento para detectar la interaccion en aquellos casos en que se 
sospecha que exista. Tal procedimiento requiere que se disponga de un estimador 
insesgado e independiente de a 2 . Por desgracia, el diseno por bloques aleatorios no 
conduce a dicha prueba, a menos que se modifique el planteamiento inicial. En el 
capitulo 14 se estudia ese tema en forma extensa. 


13.10 Metodos graficos y comprobacion del modelo 

En varios capitulos de este libro se hace referenda a procedimientos graficos para 
mostrar datos y resultados analiticos. En los primeros, se usaron graficas de tallo 
y hojas y de caja y extension, como ayudas visuales para resumir muestras. Se em- 
plearon diagnosticos similares para entender mejor los datos de dos problemas de 
muestreo en los capitulos 9 y 10. En el capitulo 9 se introdujo el concepto de graficar 
los residuos (ordinarios y studentizados) para detectar trasgresiones de las suposi- 
ciones estandar. En los ultimos anos, gran parte de la atencion dedicada al analisis 
de datos se ha centrado en los metodos graficos. Al igual que en la regresion, el 
analisis de varianza lleva por si mismo a graficas que ayudan a resumir los datos, 
asi como a detectar trasgresiones de los supuestos. Por ejemplo, una grafica sencilla 
de las observaciones crudas alrededor de la media de cada tratamiento proporciona 
al analista una notion de la variabilidad entre las medias muestrales y dentro de las 
muestras. La figura 13.6 ilustra una de tales graficas para los datos de agregados que 
se presentan en la tabla 13.1. De acuerdo con la apariencia de la grafica se obtiene 
incluso la vision de cuales agregados (si los hubiera) se apart an de los demas. Es evi- 
dente que el agregado 4 se aleja de los otros. Tambien queda claro que los agregados 
3 y 5 forman un grupo homogeneo, asi como los agregados 1 y 2. 

Como en el caso de la regresion, los residuos son de ayuda en el analisis de va- 
rianza para dar un diagnostico sobre trasgresiones de los supuestos. Para formar los 
residuos, tan solo necesitamos considerar el modelo del problema con un solo factor, 


Vij — Pi + Cij. 
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Figura 13.6: Grafica de los datos alrededor de la media, con los datos 
de los agregados de la tabla 13.1. 
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Figura 13.7: Graficas de los residuos para cinco agregados, 
con los datos de la tabla 13.1. 


Es inmediata la determination de que la estimation de pi es yi, . Por lo tanto, 
el ij-esimo residuo es y — y,, . Esto se extiende facilmente al modelo de bloques 
aleatorios por completo. Es instructive graficar los residuos para cada agregado, con 
la finalidad de tener alguna perspectiva sobre la suposicion de varianza homogenea. 
Dicha grafica se muestra en la figura 13.7. 

En ciertas situaciones, las tendencias de las graficas revelan dificultades, en par- 
ticular cuando la trasgresion de una suposicion especffica se manifiesta en la grafica. 
En el caso de la figura 13.7, los residuos parecen indicar que las varianzas dentro de 
los tratamientos son razonablemente homogeneas, excepto la del agregado 1. Hay 
cierta evidencia grafica de que la varianza del agregado 1 es mas grande que las del 
resto. 


^Que es un residuo para un diseno de bca? 

La formation de bloques completamente aleatorios es otra situation experimental 
en la cual una grafica hace que el analista se sienta comodo con una “imagen ideal” o 


546 


Capitulo 13 Experimentos con un solo factor: General 


con la detection de dificultades. Hay que recordar que el modelo para bloques com- 
pletamente aleatorios es 


Vij ~[i + a i + 0 j + eij, i = 1,. . . ,k, j = 
con las restricciones impuestas 

k b 

i = 1 j = 1 

Para determinar que es lo que en realidad constituye un residuo, considere que 

a i Pi. P, Pj p.j p 


y que p es estimada por j/.., pi. es estimada por y j. , y que p.j es estimada por y.j. 
Como resultado, el valor ajustado o pronosticado, por y^ esta dado por 

ytj = p + cti + Pj = yi. + y.j - y.., 

y, entonces, el residuo en la observation (i, j) esta dado por 

Uij — Vij = Vij — Vi. — y.j y . 


Observe que yij, el valor ajustado, es un estimador de la media pij. Esto es consis- 
tente con la partition de la variabilidad dada en el teorema 13.3, en la que la suma 
de los errores al cuadrado es 

SSE = - v-j + v •) 2 ' 

i j 

Las tecnicas visuales en la formation de bloques completamente aleatorios implican 
grafrcar los residuos por separado para cada tratamiento y bloque. Si la suposi- 
cion de varianza homogenea se cumple, el analista deberia esperar una variabilidad 
aproximadamente igual. El lector seguramente recordara que en el capitulo 12 se 
estudiaron graficas de los residuos, en las cuales estos se empleaban con el objetivo 
de detectar si el modelo era inadecuado. En el caso de los bloques aleatorios por 
complete, la falla seria del modelo podria estar relacionada con la suposicion de adi- 
tividad (es decir, no hay interaction). Si no esta presente ninguna interaction, debe 
surgir un patron aleatorio. 

Considere los datos del ejemplo 13.6, en los cuales los tratamientos son cuatro 
maquinas y los bloques son seis operadores. Las figuras 13.8 y 13.9 muestran las 
graficas de los residuos para tratamientos separados y bloques separados. La figura 
13.10 presenta una grafica de los residuos contra los valores ajustados. La figura 13.8 
revela que la varianza del error podria no ser la misma para todas las maquinas. Lo 
mismo seria valido para la varianza del error de cada uno de los seis operadores. Sin 
embargo, son dos residuos inusualmente grandes los que parecen producir la dificul- 
tad. La figura 13.10 revela una grafica de residuos que dan evidencia razonable de 
un comportamiento aleatorio. Sin embargo, sobresalen los dos residuos grandes ya 
detectados. 
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547 



2.5 


1.5 

(f) 

0.5 

o 

"D 

0 

(/) 

CD 

-0.5 

CC 

-1.5 


-2.5 


12 3 4 

Maquinas 

Figura 13.8: Grafica de los residuos para las cuatro 
maquinas de los datos del ejemplo 13.6. 
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Figura 13.9: Grafica de los residuos para los seis 
operadores para los datos del ejemplo 13.6. 
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Figura 13.10: Los residuos graficados contra los valores ajustados 
para los datos del ejemplo 13.6. 


13.11 Transformaciones de los datos en el analisis de varianza 

En el capi'tulo 11 dimos considerable atencion a la transformation de la respuesta 
y en situaciones para las que se ajustaba un modelo lineal a un conjunto de datos. 
Es evidente que se aplican los mismos conceptos a la regresion lineal multiple, aun- 
que ello no se analizo en el capi'tulo 12. En el estudio del modelado con regresion, se 
hizo enfasis en las transformaciones de y que produciri'an un modelo que se ajustari'a 
mejor a los datos que aquel en el que la y entraba linealmente. Por ejemplo, si la 
estructura del “tiempo” es de naturaleza exponential, entonces una transformation 
logantmica de y linealiza la estructura, con lo que se espera tener mas exito cuando 
se use la respuesta transformada. 

Si bien el proposito fundamental de transformar los datos que se ha perseguido 
hasta este momento ha sido mejorar el ajuste del modelo, hay otras razones para 
transformar o reexpresar la respuesta y , y muchas de ellas se relacionan con las su- 
posiciones que se hacen (de las que depende la validez del analisis). Una suposicion 
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muy importante en el analisis de varianza es la de la varianza homogenea que se 
estudio al inicio de la section 13.4. Se supone una varianza comun cr 2 . Si la varian- 
za difiriera mucho de un tratamiento a otro, y se llevara a cabo el anova estandar que 
se estudia en este capitulo (y otros posteriores), los resultados estarfan muy equi- 
vocados. En otras palabras, el analisis de varianza no es robusto respecto de la 
suposicion de varianza homogenea. Como se ha dicho hasta el momento, se trata del 
motivo principal para graficar los residuos, segun se analizo en la section ultima y 
se ilustro con las hguras 13.8, 13.9 y 13.10. Dichas graficas permiten detectar pro- 
blemas debidos a una varianza no homogenea. Sin embargo, ique hay que hacer al 
respecto? ^Como se les enfrenta? 


^De donde proviene la varianza no homogenea? 

Con frecuencia, aunque no siempre, la varianza no homogenea en el anova existe debido 
a la distribution de las respuestas. Ahora, por supuesto, se acepta la normalidad de 
la respuesta. Pero hay ciertas situaciones en las que se necesitan pruebas sobre las 
medias aun cuando la distribution de la respuesta sea una de esas distribuciones que 
no son la normal y que se estudiaron en los capftulos 5 y 6 (Poisson, logaritmica 
normal, exponential y gamma, entre otras). Los problemas del tipo anova existen 
con datos de conteo, tiempo de operation antes del fallo, etcetera. 

En los capftulos 5 y 6 se demostro que, ademas del caso de la normal, la varianza 
de una distribution con frecuencia sera funcion de la media, es decir, o 2 = g{pi ). Por 
ejemplo, en el caso de la distribution de Poisson, Var(Yi ) = pi = o 2 (es decir, la va- 
rianza es igual a la media). En el caso de la exponential, Var(Yi) = a 2 = p 2 (es decir, la 
varianza es igual al cuadrado de la media). Para el caso de la logaritmica normal, 
una transformation logaritmica produce una distribution normal con varianza cons- 
tante cr 2 . 

Para obtener la varianza de una funcion no lineal se utilizan los mismos concep- 
tos empleados en el capitulo 4, como ayuda para determinar la naturaleza de la 
transformacion estabilizadora de la varianza g(yi). Al recordar la expansion en series 

de Taylor de primer orden de g(yi) alrededor de j/j = pi cuando g'(pi) = 

la funcion de transformacion g{y) debe ser independiente de p para que baste como la 
transformacion estabilizadora de la varianza. De lo anterior 

Var\g{yi)] = [g'{pi)] 2 af. 


9g(yi) 

dyi 


Como resultado, g(yi) debe ser tal que g'(pi) oc A Asf, si se sospecha que la res- 
puesta tiene una distribution de Poisson, cr, = p l J 2 , de modo que g'(pi) oc -rn- 

1 Pi 

Entonces, la transformacion estabilizadora de la varianza se vuelve g(yi) = y)/ 2 ■ Con 
esta ilustracion y manipulaciones similares para las distribuciones exponential y 
gamma, se obtiene lo siguiente 

Distribution Transformaciones estabilizadoras de la varianza 


Poisson 

Exponencial 

Gamma 


g{y) = y 1/2 

g(y) = In y 
g{y) = In y 
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13.12 Cuadrados latinos (opcional) 

El diseno por bloques completamente aleatorios es muy eficaz para reducir el error 
experimental al eliminar una fuente de variacion. Otro diseno que es particularmente 
util para controlar dos fuentes de variacion, al tiempo que se reduce el numero 
requerido de combinaciones de tratamientos, se denomina cuadrados latinos. Su- 
ponga el lector que hay interes en los rendimientos de 4 variedades de trigo utilizan- 
do 4 fertilizantes durante un periodo de 4 anos. El numero total de combinaciones de 
tratamientos para un diseno por completo aleatorio seri'a 64. Al seleccionar el mismo 
numero de categori'as para los tres criterios de clasificacion, podri'a elegirse un diseno 
de cuadrados latinos y realizar el analisis de varianza empleando los resultados de 
solo 16 combinaciones de tratamientos. Un cuadrado latino comun, seleccionado al 
azar de todos los cuadrados de 4 x 4 posibles, es el siguiente: 


Renglon 


Columna 

1 

2 

3 

4 

1 

A 

B 

C 

D 

2 

D 

A 

B 

C 

3 

C 

D 

A 

B 

4 

B 

C 

D 

A 


Las cuatro letras, A, B, C y D, representan las 4 variedades de trigo a que se 
alude como tratamientos. Los renglones y las columnas, representados por los 4 
fertilizantes y los 4 anos, respectivamente, son las dos fuentes de variacion que se 
desea controlar. Ahora se observa que cada tratamiento ocurre exactamente una vez 
en cada renglon y cada columna. Con este arreglo balanceado, el analisis de varianza 
permite separar la variacion debida a los distintos fertilizantes y los anos diferen- 
tes, de la suma de errores al cuadrado, y con ello obtener una prueba mas exacta 
para las diferencias en los rendimientos de las cuatro variedades de trigo. Cuando 
existe interaction entre cualesquiera fuentes de variacion, los valores / dejan de ser 
validos en el analisis de varianza. En ese caso, el diseno por cuadrados latinos seri'a 
inadecuado. 


Generalization al cuadrado latino 

Ahora generalizaremos y consideraremos un cuadrado latino de r x r, donde yijk de- 
nota una observation en el i-esimo renglon y en la y-esima columna para la fc-esima 
letra. Observe que una vez que se especifican la i y la y para un cuadrado latino en 
particular, en forma automatica se conoce la letra determinada por k. Por ejemplo, 
en el cuadrado latino de 4 x 4 anterior, cuando i = 2 y j = 3, se tiene que k = B. 
Entonces, k es funcion de i y j. Si Oj y f3j son los efectos del i-esimo renglon y la 
y-esima columna, Tfc el efecto del k-e simo tratamiento, /i la media general, y e ijh el 
error aleatorio, entonces, 


Vijk — l 1 + Oii + f3j + Tfc + tijki 
a la que se imponen las restricciones 

k 


J 
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Igual que antes, se acepta que las yijk son valores de variables aleatorias indepen- 
dientes que tienen distribuciones normales con medias 


Pijk — p Pj Tfc 

y varianza comun er 2 . Las hipotesis a probar son las siguientes: 

H 0 : t\ = T'2 = ■ ■ ■ = T r = 0, 

H i: A1 menos una de las Ti no es igual a cero. 

Esta prueba se basara en la comparacion de estimadores independientes de er 2 , ob- 
tenidos con la descomposicion de la suma total de cuadrados de nuestros datos en 
cuatro componentes, usando la siguiente identidad. En el ejercicio 13.37 de la pagina 
554 se pide al lector que de la demostracion. 


Teorema 13.4: 


Identidad de la suma de cuadrados 

-y -) 2 = r Yl^ 1 - + -y -f 

i j k i j 

+r^2(y..k - y...) 2 + ^2^2^2(yijk - Vi.. - y.j. - y..k + 2 y..) 2 

k i j k 


Simbolicamente, la identidad de la suma de cuadrados se escribe asi: 


SST = SSR + SSC + SSTr + SSE, 

donde SSR y SSC se denominan suma de cuadrados del renglon y suma de cuadrados 
de la columna, respectivamente; SSir recibe el nombre de suma de cuadrados del 
tratamiento, y SSE es la suma de cuadrados del error. Se hace la particion de los gra- 
dos de libertad de acuerdo con la identidad 


r 2 — 1 = (r — 1) + (r — 1) + (r — 1) + (r — l)(r — 2). 

Al dividir cada una de las sumas de cuadrados del lado derecho de la identidad entre 
su numero correspondiente de grados de libertad, se obtienen los cuatro estimadores 
independientes 


2 SSR 2 SSC 2 SSTr 2 SSE 

Sl r — 1’ S2 r — 1’ Ss r— 1’ S (r — l)(r — 2) 

de cr 2 . Si se interpretan las sumas de cuadrados como funciones de variables aleato- 
rias independientes, no es dificil comprobar que 


E(S 2 ) 
E(S 2 2 ) 
E(Sl) 
E(S 2 ) 


E 


E 


E 


E 


SSR 
r — 1 

ssc 

r — 1 

SSTr 
r — 1 


i 

j 


= + 


SSE 


L(r-l)(r-2) 


u 2 . 



Ejercicios 


551 


El analisis de varianza (tabla 13.11) indica la prueba F adecuada para los trata- 
mientos. 


Tabla 13.11: 

Analisis de 

varianza para un 

cuadrado latino de r x r 

Fuente de 

Suma de 

Grados de 

Media 

/ 

variacion 

cuadrados 

libertad 

cuadratica 

calculada 

Renglones 

SSR 

r — 1 

„2 SSR 

*1 - r - 1 


Columnas 

SSC 

r — 1 

„2 _ ssc 

*2 - r _i 


Tratamientos 

ssrr 

r — 1 

ssrr 

S 3 - i — 1 

II 

Error 

SSE 

(r — l)(r — 2) 

„2 SSE 


0 1)0 2) 


Total 

SST 

r 2 - 1 




Ejemplo 13.7:1 Para ilustrar el analisis de un cuadrado latino, volveremos a analizar el experimen- 
to en que las letras A, B, C y D representan 4 variedades de trigo; los renglones 
representan 4 fertilizantes distintos; y las columnas se refieren a 4 anos diferentes. 
Los datos de la tabla 13.12 son las producciones de las cuatro variedades de trigo, 
medidas en kilogramos por parcela. Se supone que las distintas fuentes de variation 
no interactuan. Con un nivel de significancia de 0.05, pruebe la hipotesis Hq. No hay 
diferencia en las producciones promedio de las 4 variedades de trigo. 

Tabla 13.12: Producciones de trigo (kilogramos por parcela) 


Tratamiento con fertilizante 1981 1982 1983 1984 


tl 

A: 70 

B: 75 

C: 68 

D: 81 

^2 

D: 66 

A: 59 

B: 55 

C: 63 

t'A 

C: 59 

D: 66 

A: 39 

B: 42 

u 

B: 41 

C: 57 

D: 39 

D: 55 


Solucion: Hq\ n = T2 = T3 = 74 = 0, 

H 1: A1 menos una de las n no es igual a cero. 

Se emplean la suma de cuadrados y los grados de libertad que se muestran en la 
tabla 13.11. Las formulas de la suma de cuadrados aparecen en el teorema 13.4. En 
este caso, por supuesto, la tabla del analisis de varianza (tabla 13.13) debe reflcjar 
la variabilidad que se debe al fertilizante, a los anos y a los tipos de tratamiento. 
El valor / = 2.02 es sobre 3 y 6 grados de libertad. Es evidente que el valor p de 
aproximadamente 0.2 es muy grande como para concluir que las variedades de trigo 
afectan de manera significativa su production. 

Ej ercicios 

13.25 Demuestre que el calculo de la formula de ssb 13.26 Para el diseno por bloques completamente 
para el analisis de varianza del diseno por bloques comple- aleatorios con k tratamientos 
tamente aleatorio, es equivalente al termino correspon- 
diente en la identidad del teorema 13.3. 
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Tabla 13.13: Analisis de varianza para los datos de la tabla 13.12 


Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Media 

cuadratica 

/ 

calculada 

Valor P 

Fertilizante 

1557 

3 

519.000 



Ano 

418 

3 

139.333 



Tratamientos 

264 

3 

88.000 

2.02 

0.21 

Error 

261 

6 

43.500 



Total 

2500 

15 





y b bloques, demuestre que 

b 

E(SSB) = (b - l)a 2 + kYj 2 . 

j=i 


Analista 1 Analista 2 Analista 3 Analista 4 Analista 5 


B: 2.7 

C: 7.5 

B: 2.8 

A: 1.7 

C: 8.1 

C: 3.6 

A: 1.6 

A: 2.7 

B: 1.9 

A: 2.0 

A: 3.8 

B: 5.2 

C: 6.4 

C: 2.6 

B: 4.8 


13.27 Se utilizaron cuatro clases de fertilizante /i, fi, 
f 3 y / 4 , para estudiar el rendimiento en el cultivo de 
frijol. El suelo se dividio en 3 bloques, cada uno de los 
cuales contiene 4 parcelas homogeneas. A continuation 
se presentan los rendimientos en kilogramos por parce- 
la, as! como los tratamientos correspondientes: 


Ejecute el analisis de varianza y pruebe la hipotesis, 
con un nivel de significancia de 0.05, de que el por- 
centaje de aditivos externos es el mismo para las tres 
marcas de mermelada. ^Cual de ellas parece tener me- 
nos aditivos? 


Bloque 1 Bloque 2 Bloque 3 


fi = 42.7 


h = 50.9 


/ 4 = 51.1 

h = 48.5 


fi = 50.0 


h = 46.3 

/ 4 = 32.8 


h = 38.0 


h = 51.9 

h = 39.3 


h = 40.2 


h = 53.5 


a) Realice un analisis de varianza con un nivel de sig- 
nificancia de 0.05, y utilice el modelo de bloques 
aleatorios por completo. 

b) Emplee contrastes de un solo grado de libertad y 
un nivel de significancia de 0.01, para comparar los 
fertilizantes (/i, / 3 ) contra (/ 2 , / 4 ), y fi contra f 3 . 
Saque conclusiones. 

13.28 Se comparan tres variedades de patatas en 
cuanto a su rendimiento. El experimento se efectuo con 
la asignacion aleatoria de cada variedad a 3 parcelas de 
igual tamano, en 4 ubicaciones diferentes. Se registra- 
ron los siguientes rendimientos para las variedades A, 
B y C, en 100 kilogramos por parcela: 


Ubicacion 1 Ubicacion 2 Ubicacion 3 Ubicacion 4 


B : 13 

C : 21 

C : 9 


A : 11 

A : 18 

A : 20 

B : 12 


C : 10 

C ■ 12 

B : 23 

A : 14 


B : 17 


13.30 Los siguientes datos representan las calificacio- 
nes finales obtenidas por 5 estudiantes en matematicas, 
ingles, frances y biologia: 


Materia 


Mate- 


Estudiante 

maticas 

Ingles 

Frances 

Biologia 

1 

68 

57 

73 

61 

2 

83 

94 

91 

86 

3 

72 

81 

63 

59 

4 

55 

73 

77 

66 

5 

92 

68 

75 

87 


Pruebe la hipotesis de que los cursos tienen la misma 
dificultad. En las conclusiones use un valor P y analice 
lo que descubra. 

13.31 En el estudio The Periphyton of the South Ri- 
ver, Virginia: Mercury Concentration, Productivity, and 
Autotropic Index Studies, efectuado por el Departamen- 
to de Ciencias e Ingenierfa Ambientales, del Instituto 
Politecnico y Universidad Estatal de Virginia, se midio 
la concentration total de mercurio en solidos totales en 
perifiton en seis estaciones distintas y en seis dfas dife- 
rentes. Se registraron los datos siguientes: 


Realice un analisis de varianza por bloques aleatorios 
con el objetivo de probar la hipotesis de que no hay 
diferencia en los rendimientos de las tres variedades 
de patatas. Utilice un nivel de significancia de 0.05. 
Obtenga sus conclusiones. 

13.29 Los siguientes datos son los porcentajes de adi- 
tivos externos, medidos por 5 analistas, de 3 marcas 
distintas de mermelada de fresas, A, B y C. 


Estacion 


Fecha 

CA 

CB 

El 

E2 

E3 

E4 

8 de abril 

0.45 

3.24 

1.33 

2.04 

3.93 

5.93 

23 de junio 

0.10 

0.10 

0.99 

4.31 

9.92 

6.49 

1 de julio 

0.25 

0.25 

1.65 

3.13 

7.39 

4.43 

8 de julio 

0.09 

0.06 

0.92 

3.66 

7.88 

6.24 

15 de julio 

0.15 

0.16 

2.17 

3.50 

8.82 

5.39 

23 de julio 

0.17 

0.39 

4.30 

2.91 

5.50 

4.29 
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Determine si entre las estaciones la media del conteni- 
do de mercurio es significativamente distinta. Use un 
valor P y analice sus hallazgos. 

13.32 Las instalaciones para generar energi'a nuclear 
producen gran cantidad de calor que, en general, se 
descarga a cuerpos de agua. Ese calor eleva la tempera- 
tura del h'quido, lo cual da como resultado una mayor 
concentration de clorofila a que, a la vez, alarga la 
temporada de crecimiento. Para estudiar este efecto, se 
tomaron muestras de agua en forma mensual en 3 esta- 
ciones, durante un periodo de 12 meses. La estacion A 
es la que se ubica mas cerca de una descarga potencial 
de agua caliente, la estacion C es la mas lejana de la 
descarga, y la estacion B se encuentra entre las estacio- 
nes A y C. Se registraron las siguientes concentraciones 
de clorofila a. 


Estacion 


Mes 

A 

B 

C 

Enero 

9.867 

3.723 

4.410 

Febrero 

14.035 

8.416 

11.100 

Marzo 

10.700 

20.723 

4.470 

Abril 

13.853 

9.168 

8.010 

Mayo 

7.067 

4.778 

34.080 

Junio 

11.670 

9.145 

8.990 

Julio 

7.357 

8.463 

3.350 

Agosto 

3.358 

4.086 

4.500 

Septiembre 

4.210 

4.233 

6.830 

Octubre 

3.630 

2.320 

5.800 

Noviembre 

2.953 

3.843 

3.480 

Diciembre 

2.640 

3.610 

3.020 


Realice un analisis de varianza y pruebe la hipotesis 
de que, con un nivel de significancia de 0.05, no hay 
diferencia en las concentraciones medias de clorofila a 
en las 3 estaciones. 

13.33 En un estudio realizado por el Departamento 
de Salud y Education Ffsica del Instituto Politecnico y 
Universidad Estatal de Virginia, se asignaron 3 dietas 
durante 3 dfas a cada uno de 6 sujetos, con diseno por 
bloques aleatorio. Los sujetos, que desempenan el papel 
de bloques, recibieron las siguientes 3 dietas, en orden 
aleatorio: 

Dieta 1: grasas mixtas y carbohidratos, 

Dieta 2: muchas grasas, 

Dieta 3: muchos carbohidratos. 

A1 terminar el periodo de tres dfas, se puso a cada su- 
jeto en una banda caminadora y se midio el tiempo, en 
segundos, en el que quedaban exhaustos. Se registraron 
los siguientes datos: 


Sujeto 



1 

2 

3 

4 

5 

6 

1 

84 

35 

91 

57 

56 

45 

Dieta 2 

91 

48 

71 

45 

61 

61 

3 

122 

53 

110 

71 

91 

122 


Efectue un analisis de varianza en el que aparte la 
dieta, a los sujetos y la suma de errores al cuadrado. 


Utilice un valor P para determinar si existe diferencia 
significativa entre las dietas. 

13.34 El personal forestal utiliza arsenico organico 
como arboricida. Un problema grande de salud lo cons- 
tituye la cantidad de arsenico que ingresa al cuerpo 
cuando se le expone a dicho arboricida. Es importante 
que la cantidad de exposition se determine rapido, de 
manera que pueda retirarse del trabajo a los empleados 
con niveles elevados de arsenico. En un experimento 
descrito en el artfculo “A Rapid Method for the Deter- 
mination of Arsenic Concentrations in Urine at Field 
Locations”, publicado en Amer. Ind. Hyg. Assoc. J. 
(vol. 37, 1976), especfmenes de orina procedentes de 4 
personas del servicio forestal fueron divididos por igual 
en tres muestras, de manera que pudiera analizarse el 
arsenico en cada individuo en un laboratorio universi- 
tario, por un qufmico que utilizaba un sistema portatil, 
y por un empleado forestal que habi'a recibido una ca- 
pacitacion breve. Se registraron los siguientes niveles 
de arsenico, en partes por millon: 

Analista 

Individuo Empleado Qufmico Laboratorio 


1 

0.05 

0.05 

0.04 

2 

0.05 

0.05 

0.04 

3 

0.04 

0.04 

0.03 

4 

0.15 

0.17 

0.10 


Realice un analisis de varianza y pruebe la hipotesis de 
que con los tres metodos de analisis no hay diferencia 
en los niveles de arsenico, con un nivel de significan- 
cia de 0.05. 

13.35 Los cientfficos del Departamento de Patologfa 
Vegetal en el Tecnologico de Virginia Tech, realizaron 
un experimento en el que se aplicaron 5 tratamientos 
diferentes a 6 localidades distintas de un huerto de 
manzanas, para determinar si habfa diferencias signifi- 
cativas en el crecimiento segun el tratamiento. Los tra- 
tamientos 1 a 4 representan distintos herbicidas, y el 5 
es un control. El periodo de crecimiento fue de mayo a 
noviembre de 1982, y el crecimiento nuevo, medido en 
centfmetros, para muestras seleccionadas de 6 ubica- 
ciones en el huerto, se registraron como sigue: 


Ubicaciones 


Tratamiento 

1 

2 

3 

4 

5 

6 

1 

455 

72 

61 

215 

695 

501 

2 

622 

82 

444 

170 

437 

134 

3 

695 

56 

50 

443 

701 

373 

4 

607 

650 

493 

257 

490 

262 

5 

388 

263 

185 

103 

518 

622 


Lleve a cabo un analisis de varianza que separe el tra- 
tamiento, la ubicacion y la suma de errores al cuadra- 
do. Determine si hay diferencias significativas entre las 
medias de los tratamientos. Obtenga un valor P. 

13.36 En el artfculo “Self-Control and Therapist 
Control in the Behavioral Treatment of Overweight 
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Women”, publicado en Behavioral Research and The- 
rapy (vol. 10, 1972), se estudiaron dos tratamientos 
de reduction y otro de control, para observar sus efec- 
tos en el cambio del peso en mujeres obesas. Los dos 
tratamientos reductores involucrados fueron, respecti- 
vamente, un programa autoinducido de reduction de 
peso, y otro controlado por el terapeuta. Se asigno a 
cada uno de 10 sujetos a los tres programas de trata- 
miento en orden al azar, y se midio la perdida de peso. 
Se registraron los siguientes cambios en el peso: 

Tratamiento 

Sujeto Control Autoinducido Con terapeuta 


1 

1.00 

-2.25 

-10.50 

2 

3.75 

-6.00 

-13.50 

3 

0.00 

-2.00 

0.75 

4 

-0.25 

-1.50 

-4.50 

5 

-2.25 

-3.25 

-6.00 

6 

-1.00 

-1.50 

4.00 

7 

-1.00 

-10.75 

-12.25 

8 

3.75 

-0.75 

-2.75 

9 

1.50 

0.00 

-6.75 

10 

0.50 

-3.75 

-7.00 


Realice un analisis de varianza y pruebe la hipotesis, 
con un nivel de significancia de 0.01, de que no hay 
diferencia en la media de las perdidas de peso con los 3 
tratamientos. i,Que tratamiento fue el mejor? 

13.37 Compruebe la identidad de la suma de cuadra- 
dos del teorema 13.4, de la pagina 550. 

13.38 Para el diseno con el cuadrado latino de r X r, 
demuestre que 

E(SSTr) = (r — l)cr 2 + r r|. 

k 

13.39 El departamento de matematicas de una uni- 
versidad grande quiere evaluar las habilidades didacti- 
cas de 4 profesores. Para eliminar cualesquiera efectos 
debidos a los horarios y cursos distintos de matemati- 
cas a lo largo del dia, se decidio realizar un experimen- 
to utilizando el diseno del cuadrado latino, en el que 
las letras A, B, C y D representaban a los 4 diferentes 
profesores. Cada uno de ellos enseno una parte de cada 
uno de cuatro cursos programados en 4 horarios dis- 
tintos del dia. Los datos siguientes muestran las cali- 
ficaciones asignadas a los maestros por 16 estudiantes 
de capacidad aproximadamente igual. Utilice un nivel de 
significancia de 0.05 para probar la hipotesis de que 
los distintos profesores no tienen ningun efecto en las 
calificaciones. 


Curso 


Horario 

Algebra 

Geo- 

metrfa 

Esta- 

distica 

Calculo 

1 

A: 84 

B: 79 

C: 63 

D: 97 

2 

B: 91 

C: 82 

D: 80 

A: 93 

3 

C: 59 

D: 70 

A: 77 

B: 80 

4 

D: 75 

A: 91 

B: 75 

C: 68 


13.40 Una empresa de manufactura desea investigar 
los efectos de 5 aditivos para el color en el tiempo de 
preparation de una nueva mezcla de concreto. Se espe- 
ran variaciones en los tiempos de preparation debido 
a los cambios diarios en temperatura y humedad, asf 
como a los distintos trabaj adores que preparan los mol- 
des de prueba. Para eliminar esas fuentes extranas de 
variation, se diseno un cuadrado latino de 5 x 5, en el 
cual las letras A, B, C, D y E representan los 5 aditi- 
vos. En la tabla que sigue se presentan los tiempos de 
preparation, en horas, para los 25 moldes. 

Dia 

Traba- 


jador 

1 

2 

3 

4 

5 

1 

D: 10.7 

E: 10.3 

B: 11.2 

A: 10.9 

C: 10.5 

2 

E: 11.3 

C: 10.5 

D: 12.0 

B: 11.5 

A: 10.3 

3 

A: 11.8 

B: 10.9 

C: 10.5 

D: 11.3 

E: 7.5 

4 

B: 14.1 

A: 11.6 

E: 11.0 

C: 11.7 

D: 11.5 

5 

C: 14.5 

D: 11.5 

A: 11.5 

E: 12.7 

B: 10.9 


Con un nivel de significancia de 0.05, les posible decir 
que los aditivos para el color no tienen efecto alguno en 
el tiempo de preparation de la mezcla de concreto? 

13.41 En el libro Design of Experiments for the Qua- 
lity Improvement, publicado por la Japanese Standards 
Association (1989), se describe un estudio sobre la can- 
tidad de tinta que se requiere para obtener el mejor 
color para cierto tipo de tela. Se administraron en dos 
plantas diferentes las tres cantidades de tinta: |% wof 
(es decir, |% del peso de la tela), 1% wof y 3% wof. Des- 
pues se observo la densidad del color de una tela cuatro 
veces para cada nivel de tinta aplicada en cada planta. 

Cantidad de tinta 


1/3% 1 % 3% 


Planta 1 

5.2 6.0 

5.9 5.9 

12.3 10.5 

12.4 10.9 

22.4 17.8 

22.5 18.4 

Planta 2 

6.5 5.5 

6.4 5.9 

14.5 11.8 

16.0 13.6 

29.0 23.2 

29.7 24.0 


Con un nivel de significancia de 0.05, realice un anali- 
sis de varianza para probar la hipotesis de que no hay 
diferencia en la densidad de color de una tela para 
los tres niveles de tinta. Considere a las plantas como 
bloques. 

13.42 Se realizo un experimento con la finalidad de 
comparar tres tipos de materiales para recubrir alam- 
bres de cobre. El proposito del recubrimiento consiste 
en eliminar los “defectos” del alambre. Se asignaron al 
azar 10 especfmenes distintos de cinco milfmetros de 
longitud, para que recibieran cada proceso de recubri- 
miento, y los 30 especfmenes se sujetaron a cierto tipo 
de uso abrasivo. Se midio el numero de defectos en 
cada uno y se obtuvieron los siguientes resultados: 

Material 


12 3 


6 

8 

4 

5 

3 

3 

5 

4 

12 

8 

7 

14 

7 

7 

9 

6 

2 

4 

4 

5 

18 

6 

7 

18 

7 

8 



4 

3 



8 

5 
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Suponga que se acepta que es aplicable un proceso de 
Poisson, por lo que el modelo es Fy = Hi + ey, donde h i 
es la media de la distribucion de Poisson, y cryy = Ab- 
et) Realice tanto una transformacion apropiada de los 
datos como un analisis de varianza. 

b) Determine si hay evidencia suficiente o no para pre- 
ferir un material de recubrimiento sobre los demas. 
Muestre cualesquiera hallazgos que sugieran una 
conclusion. 


c) Haga una grafica de los residuos y comentela. 

d) Mencione el proposito de la transformacion de los 
datos. 

e) eQue otra suposicion se hace en este caso, la cual 
quiza no se satisfaga por completo en la transforma- 
cion? 

/) Comente el inciso e) despues de elaborar una grafica 
de probabilidad normal sobre los residuos. 


13.13 Modelos de efectos aleatorios 

A lo largo de este capftulo estudiamos los procedimientos de analisis de varianza en 
los que el objetivo principal es estudiar el efecto sobre ciertas respuestas de ciertos 
tratamientos fijos o predeterminados. Los experimentos en los que los tratamientos 
o los niveles de tratamiento son preseleccionados por el experimentador, a diferencia 
de aquellos que se eligen al azar, se denominan experimentos de efectos fijos 
o experimentos del modelo I. Para el modelo de efectos fijos, las inferencias se 
hacen solo sobre aquellos tratamientos particulares que se uso en el experimento. 

Con frecuencia es importante que el experimentador sea capaz de hacer infe- 
rencias acerca de una poblacion de tratamientos usando un experimento en el que 
los tratamientos empleados se eligieron al azar de entre la poblacion. Por ejemplo, 
un biologo quizas este interesado en saber si hay o no una varianza significativa en 
cierta caracteri'stica fisiologica debida a un tipo de animal. Los tipos de animales que 
en realidad se usan en el experimento se eligen al azar y representan los efectos del 
tratamiento. Un qufmico podrfa estar interesado en estudiar el efecto de los labora- 
tories de analisis sobre el analisis qufmico de una sustancia. No le preocupa ningun 
laboratorio en particular, sino que se ocupa de una poblacion grande de ellos. Asf, 
puede seleccionar al azar un grupo de laboratories y asignar muestras a cada uno 
para que las analice. Entonces, la inferencia estadfstica implicarfa 1. probar si los 
laboratories contribuyen o no a una varianza diferente de cero en los resultados de 
los analisis, y 2. estimar la varianza debida a los laboratories y a la varianza dentro 
de estos. 

Modelo y suposiciones para el modelo de efectos aleatorios 

El modelo de efectos aleatorios de un solo factor, que con frecuencia recibe el 
nombre de modelo II, se denota como el modelo de efectos fijos pero sus terminos 
toman significados diferentes. La respuesta 

Uij = A t + Ob + £y 

ahora es un valor de la variable aleatoria 


Ly ^ t Aj Eijj 

con i = 1, 2, . . . , k y j = 1, 2, . . . , n, donde las Ai tienen distribucion normal y son 
independientes con media igual a cero y varianza era, y son independientes de las 
Eij. Al igual que para el modelo de efectos fijos, las Eij tambien tienen distribucion 
normal y son independientes, con media igual a cero y varianza cr 2 . Observe que para 
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k 

un experimento del modelo II, la variable aleatoria ^ Ai adopta el valor 

i = 1 

no se aplica la restriction de que la suma de estas a, sea igual a cero. 


E a i\ 

i= 1 


y ya 


Teorema 13.5: 


Para el modelo del analisis de varianza de un solo factor, de efectos aleatorios, 
E(ssa) — (k — l)(j 2 + n(k - l)cr 2 y E(sse) = k(n - l)a 2 . 


La tabla 13.14 muestra los cuadrados esperados de la media para un experimento 
tanto del modelo I como del modelo II. Los calculos para un experimento del mode- 
lo II se ejecutan exactamente de la misma forma que para el experimento del modelo I. 
Es decir, la suma de cuadrados, los grados de libertad y las columnas de la media 
cuadratica en la tabla del analisis de varianza, son las mismas para ambos modelos. 


Tabla 13.14: Cuadrados esperados de la media para el experimento de un solo factor 


Fuente de 

Grados de 

Cuadrados 

Cuadrados esperados de la media 

variacion 

libertad 

de la media 

Modelo I 

Modelo II 

Tratamientos 

k- 1 

s 2 

S 1 

° 3 + £ 

a 2 + nol 

Error 

k(n — 1) 

s 2 

a 2 

o 2 

Total 

nk — 1 





Para el modelo de efectos aleatorio, las hipotesis de que todos los efectos del 
tratamiento son iguales a cero se escriben como sigue: 


Hipotesis para un 
experimento del 
modelo II 

Esta hipotesis indica que los tratamientos diferentes no contribuyen en absolute 
a la variabilidad de la respuesta. De la tabla 13.14, es evidente que tanto s\ como 
s 2 son estimadores de tx 2 cuando H 0 es verdad, y que la razon 



es un valor de la variable aleatoria F que tiene la distribution Fcon k — 1 y k(n — 1) 
grados de libertad. Con un nivel de significancia a , se rechaza la hipotesis nula 
cuando 


H 0 : &a ~ 
Hi: a 2 0. 


/ > fa[k - 1, k(n - 1)]. 

En muchos estudios cientfficos y de ingenierfa, el interes no se centra en la prueba F. 
El cientffico sabe que el efecto aleatorio, en efecto, es significativo. Lo que es mas im- 
portante es la estimation de los diversos componentes de la varianza. Esto produce 
un sentido de ordenacion en terminos de cuales factores producen la maxima varia- 
bilidad, y de cuanto. En el contexto presente, resulta de interes cuantificar cuanto 
mas grande es el componente de la varianza de un solo factor , que el producido por 
el azar (variation aleatoria). 



13.13 Modelos de efectos aleatorios 
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Estimacion de los componentes de la varianza 


La tabla 13.14 tambien se utiliza para estimar los componentes de la varianza 
cr 2 y o' 2 . Como s 2 estima a 2 + ruja y s 2 estima cr 2 , 


a 2 = 


d 2 = 


— s 


2 


n 


Ejemplo 13.8:1 Los datos de la tabla 13.15 representan observaciones del producto de un proceso 
quimico, usando 5 lotes de materia prima seleccionados al azar. 


Tabla 13.15: Datos para el ejemplo 13.8 


Lote: 

1 

2 

3 

4 

5 


9.7 

10.4 

15.9 

8.6 

9.7 


5.6 

9.6 

14.4 

11.1 

12.8 


8.4 

7.3 

8.3 

10.7 

8.7 


7.9 

6.8 

12.8 

7.6 

13.4 


8.2 

8.8 

7.9 

6.4 

8.3 


7.7 

9.2 

11.6 

5.9 

11.7 


8.1 

7.6 

9.8 

8.1 

10.7 

Total 

55.6 

59.7 

80.7 

58.4 

75.3 329.7 


Demuestre que el componente de la varianza del lote es significativamente mayor 
que cero, y obtenga su estimador. 

Solucion: Las sumas total, del lote y de los cuadrados del error, son 

ssr = 194.64, ssa = 72.60, sse = 194.64 - 72.60 = 122.04. 

En la tabla 13.16 se presentan estos resultados, con los calculos restantes. 


Tabla 13.16: Analisis de la varianza para el ejemplo 13.8 


Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Media 

cuadratica 

/ 

calculada 

Lotes 

72.60 

4 

18.15 

4.46 

Error 

122.04 

30 

4.07 


Total 

194.64 

34 




La razon / es significativa con un nivel a = 0.05, lo cual quiere decir que se 
rechaza la hipotesis de un componente del lote igual a cero. Una estimacion del 
componente de la varianza del lote es 


a 


2 

a 


18.15-4.07 

7 


2 . 01 . 


Observe que aun cuando el componente de la varianza del lote es significativa- 
mente distinta de cero, cuando se compara contra el estimador de cr 2 , es decir <r 2 = 
mse = 4.07, parece como si el componente de varianza del lote no fuera apreciable- 
mente grande. 
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Diseno aleatorio por bloques, con bloques al azar 

En un experimento completo con bloques aleatorios, donde los bloques representen 
di'as, es concebible que el experimentador quiera que los resultados se apliquen no 
solo a los di'as reales utilizados en el analisis, sino a cada dfa del ano. Entonces, el 
seleccionari'a al azar los di'as en que se hari'a el experimento, asf como los tratamien- 
tos y el uso del modelo de efectos aleatorios 

Yij = [i + Ai + Bj + eij, i = 1,2, ... ,k, y j = l,2,...,b, 

con las A.j, Bj y ey que son variables aleatorias independientes con medias igual a 
cero y varianzas crp y o 2 , respectivamente. Los cuadrados esperados de la media 
para un modelo II de diseno por bloques por completo aleatorios se obtienen, usando 
el mismo procedimiento que para el problema de un solo factor, y se presentan junto 
con aquellos para un experimento del modelo I, como se aprecia en la tabla 13.17. 


Tabla 13.17: Cuadrados esperados de la media para un diseno por bloques completamente aleatorio 


Fuente de 

Grados de 

Cuadrados 

Cuadrados esperados de la media 

variacion 

libertad 

de la media 

Modelo I 

Modelo II 

Tratamientos 

k - 1 

-? 


cr 2 + 6cr 2 

Bloques 

6-1 


O’ 2 + 631 E 0j 

a 2 + kop 

Error 

(fc— 1)(6 — 1) 

s 2 

o 2 

o 2 

Total 

kb - 1 





Otra vez, los calculos para las sumas individuales de cuadrados y los grados de 
libertad son identicos para aquellos del modelo de efectos fijos. Las hipotesis 

Ho'- cr 2 = 0, 

Hi: ol ^ 0 , 

se obtienen calculando 



y H 0 se rechaza cuando / > f a [k — 1, (6 — 1 )(k — 1)]. 

Los estimadores insesgados de los componentes de la varianza son 



Para el diseno del cuadrado latino, el modelo de efectos aleatorios se escribe como 


Yijk — P T Ai Bj T T k T Cijk , 

para i = 1, 2, . . . , r, j = 1, 2, . . . , r, y k = A, B, C, . . . , con A u Bj , T k y e yfc que son 
variables aleatorias independientes con medias iguales a cero y varianzas <Tq, o 2 p , o 2 


13.14 Potencia de las pruebas del analisis de varianza 
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Tabla 13.18: Cuadrados esperados de la media para un diseno de cuadrado latino 


Fuente de 

Grados de 

Cuadrados 

Cuadrados esperados de la media 

variacion 

libertad 

de la media 

Modelo I 

Modelo II 

Renglones 

r — 1 

-? 

^ 2 + t0tE« 2 

a 2 + rer 2 

Columnas 

r — 1 

4 

° 2 + t^£% 

a 2 + ra^ 

Tratamientos 

r — 1 

s 3 

° 2 + ^i £4 

a 2 + ra 2 

Error 

(r~ 1)0 - 2 ) 

S 2 

a 2 

a 2 

Total 

r 2 - 1 





y a 2 , respectivamente. La obtencion de los cuadrados esperados de la media para un 
diseno de cuadrado latino del modelo II es directa, y para fines de comparacion los 
presentamos en la tabla 13.18 junto con aquellos para un experimento del modelo I. 

Las pruebas de hipotesis que conciernen a los diversos componentes de la varian- 
za se efectuan calculando las razones de cuadrados de la media apropiados, como se 
indica en la tabla 13.18, y se comparan con los valores / correspondientes de la tabla 
A. 6. 


13.14 Potencia de las pruebas del analisis de varianza 

Como seiialamos antes, es frecuente que el investigador se vea obstaculizado por el 
problema de no saber que tan grande elegir una muestra. En la planeacion de un 
diseno aleatorio por completo de un solo factor con n observaciones por tratamiento, 
el objetivo principal es probar la hipotesis de igualdad de las medias de los trata- 
mientos. 

Ho'- oti = ac 2 = ••• otk = 0, 

Hp. A1 menos una de las a, no es igual a cero. 

Sin embargo, con demasiada frecuencia, la varianza del error experimental cr 2 es tan 
grande que el procedimiento de prueba sera insensible a las diferencias reales entre 
las k medias de los tratamientos. En la seccion 13.3, los valores esperados de los 
cuadrados de las medias para el modelo de un solo factor, estan dados por 


E(Sf) = E 


SSA 


cr 2 + 


fc 

1=1 


E(S 2 ) = E 


SSE 


k(n — 1) 


Asi, para una desviacion dada de la hipotesis nula Up, medida por 


n 

k - 1 


E« 

i= 1 


los valores grandes de cr 2 disminuyen la probabilidad de obtener un valor / = s\/ s 2 
que se encuentre en la region critica de la prueba. La sensibilidad de la prueba des- 
cribe la capacidad del procedimiento para detectar diferencias en las medias pobla- 
cionales y se mide por la potencia de la prueba (vease la seccion 10.2), que es tan 
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solo 1 — (3, donde (3 es la probabilidad de aceptar una hipotesis falsa. Entonces, 
se puede interpretar la potencia de nuestras pruebas de analisis de varianza como 
la probabilidad de que el estadi'stico F se halle en la region cri'tica cuando, de heeho, la 
hipotesis nula sea falsa y las medias del tratamiento si difieran. Para la prueba de 
analisis de varianza de un solo factor, la potencia, 1 — /?, es 


1 ~/3 = P 


' S 2 

-pk > fa(v I 1 V 2 ) cuando H\ es verdadera 
o 2 


= P 


s 2 

^ > f<*( v 1 ^ 2 ) cuando 




El termino f a {v 1 , V 2 ) es, desde luego, el punto crftico de la cola superior de la dis- 

k 

tribucion F con v\ y V 2 grados de libertad. Para valores dados de ^ a 2 /(/c — 1) y 

i= 1 

o’ 2 , la potencia se incrementa con el uso de un tamano de muestra n mas grande. El 
problema se convierte en uno de diseno del experimento con un valor de n tal que 
se cumplan los requerimientos de potencia. Por ejemplo, podri'a requerirse que para 
k 

valores especi'ficos de a i / Oy^ 2 , * rechace la hipotesis con una probabilidad 

i = 1 

de 0.9. Cuando la potencia de la prueba es baja, limita con severidad el alcance de 
las inferencias que se pueden hacer a partir de los datos experiment ales. 


El caso de los efectos fijos 

En el analisis de varianza, la potencia depende de la distribution de la razon F con 
la hipotesis alternativa de que las medias del tratamiento difieran. Por lo tanto, en 
el caso del modelo de efectos fijos de un solo factor, se requiere la distribution de 
Si/S 2 cuando, en realidad, 


X>^0. 

i= 1 

Por supuesto, cuando la hipotesis nula es verdadera, a* = 0 para i = 1, 2, . . . , k, 
y el estadi'stico sigue la distribution F con k — 1 y N — k grados de libertad. Si 
k 

a i 7^ 0, la razon sigue una distribucion F no central. 

i = 1 

La variable aleatoria fundamental de la F no central se denota con F' . Sea 
f a {v 1 , V2, A) un valor de F' con parametros ui, V2 y A. Los parametros v\ y V2 de la 
distribucion son los grados de libertad asociados con Sj y 5 s , respectivamente, y A 
se denomina el parametro de no centralidad. Cuando A = 0. la Fun central tan 
solo se reduce a la distribucion F comrin con v\ y V2 grados de libertad. 

Para efectos fijos, el analisis de varianza de un solo factor con tamanos de mues- 
tra ni, ri2, . . • , rife, se define como 

1 k 

X= ^^2 nia l 

i = 1 


13.14 Potencia de las pruebas del analisis de varianza 
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Si se dispone de tablas de la F no central, la potencia para detectar una alternativa 
especifica se obtiene al evaluar la probabilidad siguiente: 


S 2 1 

> f a (k - 1, N - k) cuando A = — 2 


1 - (3 = P 

= P(F' > f a (k-l,N-k)]. 


n * a * 


i= 1 


Aunque la F no central normalmente esta definida en terminos de A, para fines de 
tabulation es mas conveniente trabajar con 


La tabla A. 16 muestra graficas de la potencia del analisis de varianza como funcion 
de (f> para distintos valores de Vi, i >2 y el nivel de significancia a. Estas graficas de 
potencia se emplean no solo para los modelos de efectos fijos estudiados en este 
capi'tulo, sino tambien para los modelos multifactoriales del capftulo 14. Ahora resta 
dar un procedimiento con el cual pueda encontrarse el parametro de no centralidad 
A y, por lo tanto, (j> para estos casos de efectos fijos. 

El parametro de no centralidad A se escribe, en terminos de los valores espe- 
rados del cuadrado de la media en el numerador de la razon F, en el analisis 
de varianza. Se tiene que 


A = 


vi[E(S 2 )} 

2a 2 


Vl 

2 


por lo que 


[E{Sf)-a 2 ] 


Vl 

Vl + 1 


En la tabla 13.19 se presentan las expresiones para A y (fr para el modelo de un solo 
factor, el diseno con bloques completamente aleatorios y el diseno con el cuadrado 
latino. 


Tabla 13.19: Parametro de no centralidad A y (j) 2 para el modelo de efectos fijos 


Clasificacion de 

Bloque completamente 

Cuadrado 

un solo factor 

aleatorio 

latino 

A: 2^ E n i a i 

2^E«? 


4> 2 -- T^tn.a 2 

i 

i 

k 


En la tabla A. 16 observe que para valores dados de v\ y r> 2 , la potencia de la 
prueba se incrementa con valores crecientes de q i. El valor de A depende, por supues- 
to, de <t 2 , y en un problema practico es frecuente que se necesite sustituir el error 
cuadratico medio como un estimador para determinar <fr. 


Ejemplo 13.9:1 En un experimento de bloques aleatorios se van a comparar 4 tratamientos en 6 blo- 
ques, lo cual da como resultado 15 grados de libertad para el error. ^Son suficientes 
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6 bloques, si la potencia de la prueba para detectar diferencias entre las medias 
del tratamiento, con un nivel de significancia de 0.05, debe ser por lo menos de 0.8 
cuando las medias verdaderas sean pi. = 5.0, p 2 . = 7.0, pz. = 4.0 y p 4 . = 4.0? Un 
estimador de o 2 para usarse en el calculo de la potencia esta dado por <j 2 = 2.0. 
Solucion: Hay que recordar que las medias del tratamiento estan dadas por pi. = p + at. Si 

4 

se considera la restriction de que op = 0, entonces, 

i=i 



4 

^2 Pi. = 5.0, 
1=1 


y se tiene que = 0, ct 2 = 2.0, 0:3 = —1.0, y 0:4 = —1.0. Por lo tanto, 


^ 2 _ 

_ ka 2 “ 


i=l 


( 6 )( 6 ) 

(4)(2) 


= 4.5, 


de la que se obtiene cf> = 2.121. Con la tabla A. 16 se encuentra que la potencia es 
aproximadamente de 0.89, por lo que se satisfacen los requerimientos para ella. Esto 

4 

significa que si el valor de a 2 = 6 y o 2 = 2.0, el uso de seis bloques dara como 

i=i 

resultado el rechazo de la hipotesis de que las medias del tratamiento son iguales con 
una probabilidad de 0.89. 


El caso de los efectos aleatorios 

En el caso de efectos fijos, el calculo de la potencia requiere que se utilice la distribu- 
tion F no central. Ese no es el caso en el modelo de efectos aleatorios. En realidad, 
la potencia se calcula de forma muy sencilla usando las tablas Festandar. Por ejem- 
plo, considere el modelo de efectos aleatorios de un solo factor, n observaciones por 
tratamiento, con las hipotesis 

H 0 '■ cr 2 a = 0, 

Hp. o 2 ^0. 

Cuando Hi es verdadera, la razon 

, = sW[( fc ~ l)(g - 2 +no- 2 a )\ = s\ 

SSe/ [k(n — l)er 2 ] s 2 (l + no 2 /cr 2 ) 


es un valor de la variable aleatoria F que tiene distribution F con k — 1 y k(n — 1) 
grados de libertad. Entonces, el problema se convierte en determinar la probabilidad 
de rechazar Hq con la condition de que el componente de la varianza del tratamiento 
verdadera sea o 2 a ^ 0. Entonces, se tiene 


1 ~/3 = P 
= P 
= P 


S 2 

> fa[k — 1, k(n — 1)] cuando Hi es verdadera 


S 2 


> 


f a [k - 1, k{n - 1)] 


k 5 2 (1 + na^/o 2 ) 1 + no^/o 2 

' p > f a [k - 1 ,k(n - 1)] 


1 + ncr^/cr 2 


13.15 Estudio de caso 
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Observe que conforme n se incrementa, el valor f a [k — 1, k(n — 1)]/(1 + ncr^/u 2 ) 
se aproxima a cero, lo cual da como resultado un aumento en la potencia de la prue- 
ba. En la figura 13.11 se muestra una ilustracion de la potencia para esta clase de 
situacion. El area con sombra mas clara es el nivel de significancia a, en tanto que 
la de sombra mas oscura es la potencia de la prueba. 



Figura 13.11: Potencia para el analisis de varianza de un solo factor 
de efectos aleatorios. 


Ejemplo 13.10:1 Suponga que en un problema de un solo factor hay interes en probar la significancia 
del componente de varianza <j 2 a . En el experimento deben usarse cuatro tratamien- 
tos, con 5 observaciones por tratamiento. ^Cual sera la probabilidad de rechazar la 
hipotesis <j 2 a = 0, cuando en realidad el componente de la varianza del tratamiento 
es (3/4) a 2 ? 

Solucion: Con un nivel de significancia de a = 0.05, se tiene 


r /0.05(3,16)1 

= P 

r / 0 .05(3,16)1 

L " l + (5)(3)/4j 


4.75 


= P{F > 0.682) = 0.58. 


= P F > 


3.24\ 

1 75j 


Por lo tanto, el procedimiento de prueba detecta un componente de varianza de 
(3/4) a 2 solo alrededor del 58% de las veces. 


13.15 Estudio de caso 

Se pidio al personal del Departamento de Qufmica del Tecnologico de Virginia que 
analizara un conjunto de datos que se obtuvo para comparar 4 metodos distintos 
de analisis del aluminio, de cierta mezcla inflamadora solida. Para considerar un ran- 
go amplio de laboratories de analisis, se utilizaron 5 de ellos en el experimento. Estos 
laboratories se seleccionaron porque, en general, son proclives para realizar esa clase 
de analisis. Se asignaron al azar 20 muestras de material inflamador que contenfan 
2.70% de aluminio, 4 a cada laboratorio, y se dieron instrucciones acerca de como 
efectuar los analisis qufmicos utilizando los cuatro metodos. Los datos que se obtu- 
vieron son los siguientes: 
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Laboratorio 


Metodo 

1 

2 

3 

4 

5 

Media 

A 

2.67 

2.69 

2.62 

2.66 

2.70 

2.668 

B 

2.71 

2.74 

2.69 

2.70 

2.77 

2.722 

C 

2.76 

2.76 

2.70 

2.76 

2.81 

2.758 

D 

2.65 

2.69 

2.60 

2.64 

2.73 

2.662 


Los laboratories no se consideran efectos aleatorios ya que no fueron selecciona- 
dos al azar de entre una poblacion mas grande de ellos. Se analizaron los datos como 
un diseno de bloques por complete aleatorios. Se presentan graficas de los datos para 
determinar si es apropiado un modelo aditivo del tipo 


Vij = p + rrii + lj + £ij 

en otras palabras, un modelo con efectos aditivos. El bloque aleatorio no es adecuado 
cuando existe interaccion entre los laboratorios y los metodos. Considere la grafica 
de la figura 13.12. Aunque es un poco difi'cil de interpretar porque cada punto es 
una sola observacion, parece que no hay interaccion apreciable entre los metodos y 
los laboratorios. 



Figura 13.12: Grafica de interaccion para los datos del estudio de caso. 


Graficas de residuos 

Las graficas de residuos se usaron como indicaciones de diagnostico de la suposicion 
de una varianza homogenea. La figura 13.13 presenta una grafica de residuos contra 
los metodos de analisis. La variabilidad que se ilustra en los residuos parece ser bas- 
tante homogenea. Para que sea completa, en la figura 13.14 se muestra una grafica 
de probabilidad normal de los residuos. 

Las graficas de residuos no presentan dificultad con la suposicion de errores nor- 
males ni con la de varianza homogenea. Para hacer el analisis de varianza se utilizo 
el sas proc glm. La figura 13.15 muestra la salida por computadora comentada. 


Ejercicios 
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Figura 13.13: Grafica de residuos contra el metodo Figura 13.14: Grafica de probabilidad normal de 
para los datos del estudio de caso. residuos para los datos del caso de estudio. 


Los valores / y P calculados si indican una diferencia significativa entre los me- 
todos de analisis. A este analisis puede seguir un analisis de comparacion multiple, 
para determinar en donde se hallan las diferencias entre los metodos. 


Ej ercicios 


13.43 Los datos siguientes muestran el efecto de cua- 
tro operadores, elegidos al azar, sobre la production de 
una maquina especffica: 


Operador 


1 

2 

3 

4 

175.4 

168.5 

170.1 

175.2 

171.7 

162.7 

173.4 

175.7 

173.0 

165.0 

175.7 

180.1 

170.5 

164.1 

170.7 

183.7 


a) Desarrolle un analisis de varianza del modelo II con 
un nivel de significancia de 0.05. 

b) Calcule un estimador para el componente de varian- 
za del operador y para el del error experimental. 

13.44 Si se supone un modelo de efectos aleatorios, 
demuestre que 


E(ssb) = (b — 1)(T 2 + k(b — l)<Jp 


para el diseno por bloques completamente aleatorios. 

13.45 Se efectua un experimento en el cual tienen 
que compararse 4 tratamientos en 5 bloques. Se gene- 
raron los siguientes datos: 


Bloque 


Tratamiento 

1 

2 

3 

4 

5 

1 

12.8 

10.6 

11.7 

10.7 

11.0 

2 

11.7 

14.2 

11.8 

9.9 

13.8 

3 

11.5 

14.7 

13.6 

10.7 

15.9 

4 

12.6 

16.5 

15.4 

9.6 

17.1 


a) Suponiendo un modelo de efectos aleatorios, pruebe 
la hipotesis de que no hay diferencia entre las me- 
dias del tratamiento, con un nivel de significancia de 
0.05. 

b) Calcule estimadores de los componentes que tienen 
el tratamiento y el bloque en la varianza. 

13.46 Suponga un modelo de efectos aleatorios y de- 
muestre que 

E(SSTr) = (r - l)(cr 2 + ral) 
para el diseno de cuadrado latino. 

13.47 a) Utilizando un enfoque de regresion para el 
diseno por bloques completamente aleatorios, ob- 
tenga las ecuaciones normales Ab = g en forma 
matricial. 

b) Demuestre que 

R{/3l, @2, ■ ■ ■ ,Pb | <* 1 , 012, • • • , Oik) = SSB. 
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The GLM Procedure 
Class Level Information 


Class Levels Values 


Method 4 A B C D 

Lab 512345 

Number of Observations Read 20 

Number of Observations Used 20 


Dependent 

Variable : 

: Response 





Sum of 



Source 

DF 

Squares 

Mean Square F Value 

Pr > F 

Model 

7 

0.05340500 

0.00762929 42.19 

<.0001 

Error 

12 

0.00217000 

0.00018083 


Corrected 

Total 19 

0.05557500 



R-Square 

Coef f 

Var Root 

MSE Response Mean 


0.960954 

0.497592 0.013447 2.702500 


Source 

DF 

Type III SS 

Mean Square F Value 

Pr > F 

Method 

3 

0.03145500 

0.01048500 57.98 

<.0001 

Lab 

4 

0.02195000 

0.00548750 30.35 

<.0001 


Observation 

Observed 

Predicted 

Residual 

1 

2.67000000 

2.66300000 

0.00700000 

2 

2.71000000 

2.71700000 

-0.00700000 

3 

2.76000000 

2.75300000 

0.00700000 

4 

2.65000000 

2.65700000 

-0.00700000 

5 

2.69000000 

2.68550000 

0.00450000 

6 

2.74000000 

2.73950000 

0.00050000 

7 

2.76000000 

2.77550000 

-0.01550000 

8 

2.69000000 

2.67950000 

0.01050000 

9 

2.62000000 

2.61800000 

0.00200000 

10 

2.69000000 

2.67200000 

0.01800000 

11 

2.70000000 

2.70800000 

-0.00800000 

12 

2.60000000 

2.61200000 

-0.01200000 

13 

2.66000000 

2.65550000 

0.00450000 

14 

2.70000000 

2.70950000 

-0.00950000 

15 

2.76000000 

2.74550000 

0.01450000 

16 

2.64000000 

2.64950000 

-0.00950000 

17 

2.70000000 

2.71800000 

-0.01800000 

18 

2.77000000 

2.77200000 

-0.00200000 

19 

2.81000000 

2.80800000 

0.00200000 

20 

2.73000000 

2.71200000 

0.01800000 


Figura 13.15: Salida del sas para los datos del caso de estudio. 
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13.48 En el ejercicio 13.43, si hubiera interes en pro- 
bar la significancia del componente de varianza del 
operador, £se tendri'a muestras suficientemente grandes 
para garantizar un componente de varianza significa- 
tiva, con una probabilidad de hasta 0.95, si la cr 2 verda- 
dera fuera de 1.5 a 2 ? Si no fuera asl, ^cuantas corridas 
serfan necesarias para cada operador? Utilice un nivel 
de significancia de 0.05. 

13.49 Si en el ejercicio 13.45 se acepta un modelo de 
efectos fijos y se utiliza una prueba con un nivel a = 
0.05, ^cuantos bloques serfan necesarios para que se 
aceptara la hipotesis de igualdad de las medias del tra- 
tamiento, con una probabilidad de 0.1, cuando en ver- 
dad se tuviera que 



13.50 Compruebe los valores dados para A y 4> 2 en la 
tabla 13.19, para el diseno por bloques completamente 
aleatorios. 

13.51 A1 probar las muestras de sangre de un pa- 
ciente para detectar anticuerpos del vih, un espectro- 
metro determina la densidad optica de cada muestra. 
La densidad optica se mide como la absorbencia de la 
luz de cierta longitud de onda. La muestra de sangre es 
positiva si excede cierto valor lfmite que se determina 
con muestras de control para esa corrida. A los investi- 
gadores les interesa comparar la variabilidad del labo- 
ratorio para los valores de control positivo. Los datos 
representan valores de control positivo para 10 pruebas 
distintas en 4 laboratories seleccionados al azar. 

o) Escriba un modelo adecuado para este experimento. 

b) Estime el componente de varianza del laboratorio y 
la varianza dentro de los laboratories. 


Laboratorio 


Experimento 

1 

2 

3 

4 

1 

0.888 

1.065 

1.325 

1.232 

2 

0.983 

1.226 

1.069 

1.127 

3 

1.047 

1.332 

1.219 

1.051 

4 

1.087 

0.958 

0.958 

0.897 

5 

1.125 

0.816 

0.819 

1.222 

6 

0.997 

1.015 

1.140 

1.125 

7 

1.025 

1.071 

1.222 

0.990 
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13.54 El Centro de Consultorfa en Estadfstica, junto 
con el Departamento de Bosques, del Instituto Poli- 
tecnico y Universidad Estatal de Virginia, llevo a cabo 
un analisis. Se aplico cierto tratamiento a un conjun- 
to de tocones de arbol. Se empleo el producto qufmico 
Garlon con la finalidad de regenerar las rafees de los 
tocones. Se uso un aerosol con cuatro niveles de con- 
centration de Garlon. Despues de cierto tiempo, se ob- 
servo la altura de los retonos. Trate los siguientes datos 
como un analisis de varianza de un solo factor. Haga 


Laboratorio 

Experimento 12 3 4 

8 0.969 0.905 0.995 0.875 

9 0.898 1.140 0.928 0.930 

10 1.018 1.051 1.322 0.775 

13.52 De 5 “vaciados” de metales se han obtenido 5 
muestras de nucleos, y cada una se analizo para la can- 
tidad de cierto elemento traza. Los siguientes son los 
datos para los 5 vaciados seleccionadas al azar. 


Nucleo 


Vaciado 


1 

2 

3 

4 

5 

1 

0.98 

0.85 

1.12 

1.21 

1.00 

2 

1.02 

0.92 

1.68 

1.19 

1.21 

3 

1.57 

1.16 

0.99 

1.32 

0.93 

4 

1.25 

1.43 

1.26 

1.08 

0.86 

5 

1.16 

0.99 

1.05 

0.94 

1.41 


o) La intention es que los vaciados sean identicos. Asf, 
pruebe que el componente de varianza del vaciado 
es igual a cero. Saque conclusiones. 

b) Realice un anova completo junto con un estimador 
de la varianza dentro del vaciado. 

13.53 Una companfa textil produce cierta tela en un 
numero grande de telares. Los administradores querrfan 
que los telares fueran homogeneos, de manera que su 
tela tuviera resistencia uniforme. Se sospecha que hay 
variation significativa en la resistencia entre los telares. 
Considere los datos siguientes para los cuatro telares 
seleccionados al azar. Cada observation es una deter- 
mination de la resistencia de la tela expresada en libras 
por pulgada cuadrada. 


Telar 


1 

2 

3 

4 

99 

97 

94 

93 

97 

96 

95 

94 

97 

92 

90 

90 

96 

98 

92 

92 


a) Escriba un modelo para el experimento. 

b) ^El componente de la varianza del telar difiere sig- 
nificativamente de cero? 

c) Haga comentarios sobre la sospecha. 


pruebas para saber si la concentration de Garlon tiene 
un efecto significativo sobre la altura de los retonos. 
Emplee a = 0.05. 


Nivel de Garlon 


1 

2 

3 

4 

2.87 

3.27 

2.39 

3.05 

2.31 

2.66 

1.91 

0.91 

3.91 

3.15 

2.89 

2.43 

2.04 

2.00 

1.89 

0.01 
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13.55 Considere los datos agregados del ejemplo 13.1. 
Efectue una prueba de Bartlett para determinar si hay 
heterogeneidad en la varianza entre los agregados. 

13.56 En 1983 el Departamento de Ciencia de Lac- 
teos, del Instituto Politecnico y Universidad Estatal de 
Virginia, realizo un experimento para estudiar el efecto 
de las raciones alimenticias, con diferentes fuentes de pro- 
tefnas, sobre el promedio de production de leche de las 
vacas. En el experimento se utilizaron cinco raciones. 
Se empleo un cuadrado latino 5 x 5, en el que los ren- 
glones representaban vacas diferentes; y las columnas, 
periodos de lactation distintos. El Centro de Consulta 
Estadfstica del Tecnologico de Virginia analizo los si- 
guientes datos, expresados en kilogramos. 

Periodos de lactacion 
Vacas 1 2 3 4 5 


1 

A: 

33.1 

C: 

30.7 

D: 

28.7 

E: 

31.4 

B: 

28.9 

2 

B: 

34.4 

D: 

28.7 

E: 

28.8 

A: 

22.3 

C: 

22.3 

3 

C: 

26.4 

E: 

24.9 

A: 

20.0 

B: 

18.7 

D: 

15.8 

4 

D: 

34.6 

A: 

28.8 

B: 

31.9 

C: 

31.0 

E: 

30.9 

5 

E: 

33.9 

B: 

28.0 

C: 

22.7 

D: 

21.3 

A: 

19.0 


Con un nivel de significancia de 0.01, ^es posible con- 
duit- que las raciones con fuentes distintas de proteinas 
tienen un efecto en el promedio diario de production de 
leche de las vacas? 

13.57 En un proceso qufmico se utilizaron 3 cataliza- 
dores, con un control (no catalizador) incluido. Se tie- 
nen los datos siguientes de la production del proceso: 


Catalizador 


Control 

1 

2 

3 

74.5 

77.5 

81.5 

78.1 

76.1 

82.0 

82.3 

80.2 

75.9 

80.6 

81.4 

81.5 

78.1 

84.9 

79.5 

83.0 

76.2 

81.0 

83.0 

82.1 


Use una prueba de Dunnett con un rtivel de sigrtifi- 
cancia de a = 0.01 para determinar si se obtiene una 
production significativamente mas alta con catalizador 
que sin el. 

13.58 Se emplean 4 laboratories para efectuar anali- 
sis qui'micos. A ellos se envi'an muestras del mismo ma- 
terial para que las analicen, como parte del estudio, con 
la finalidad de determinar si en promedio dan o no los 
mismos resultados. Los resultados anah'ticos para los 4 
laboratorios son los siguientes: 


Laboratorio 


A 

B 

C 

D 

58.7 

62.7 

55.9 

60.7 

61.4 

64.5 

56.1 

60.3 

60.9 

63.1 

57.3 

60.9 

59.1 

59.2 

55.2 

61.4 

58.2 

60.3 

58.1 

62.3 


a) Utilice una prueba de Bartlett para demostrar que 
las varianzas dentro de los laboratorios no son 
diferentes en forma significativa, con un nivel de 
a = 0.05. 

b) Realice una grafica de probabilidad normal de los 
residuos. 

13.59 Emplee una prueba de Bartlett con un nivel de sig- 
nificancia de 0.01 para probar la homogeneidad de las 
varianzas del ejercicio 13.9 de la pagina 523. 

13.60 Use una prueba de Cochran con un nivel de sig- 
nificancia de 0.01 para probar la homogeneidad de las 
varianzas del ejercicio 13.6 de la pagina 522. 

13.61 Emplee una prueba de Bartlett con un nivel de sig- 
nificancia de 0.05 para probar la homogeneidad de las 
varianzas en el ejercicio 13.9 de la pagina 523. 

13.62 Se diseno un experimento para el personal del 
Departamento de Ciencia Animal, en el Instituto Poli- 
tecnico y Universidad Estatal de Virginia, con el pro- 
posito de estudiar el tratamiento con urea y amoniaco 
acuoso de la espiga del trigo. El proposito era mejorar el 
valor nutritional para las ovejas macho. Los tratamien- 
tos dieteticos son: control; urea en la alimentation; es- 
piga tratada con amoniaco; espiga tratada con urea. En 
el experimento se emplearon 24 ovejas y se separaron de 
acuerdo con su peso relativo. En cada grupo homogeneo 
habfa seis ovejas. Cada una de estas recibio cada una de 
las 4 dietas en orden aleatorio. Para cada una de las 24 
ovejas se midio el porcentaje de materia seca digerida. 
Los siguientes son los datos: 


Grupo por peso (bloque) 


Dieta 

i 

2 

3 

4 

5 

6 

Control 

32.68 

36.22 

36.36 

40.95 

34.99 

33.89 

Urea en la 
alimentation 

35.90 

38.73 

37.55 

34.64 

37.36 

34.35 

Tratada con 
amoniaco 

49.43 

53.50 

52.86 

45.00 

47.20 

49.76 

Tratada 

con urea 

46.58 

42.82 

45.41 

45.08 

43.81 

47.40 


a) Use un tipo de analisis por bloques aleatorios para 
probar las diferencias entre las dietas. Use a = 0.05. 

b ) Utilice la prueba de Dunnett para comparar las 3 
dietas con el control. Emplee a = 0.05. 

c) Haga una grafica de probabilidad normal de los re- 
siduos. 

13.63 En el conjunto de datos que se analizo para 
el personal del Departamento de Bioqufmica, del Ins- 
tituto Tecnologico y Universidad Estatal de Virginia, 
se dieron 3 dietas a un grupo de ratas con el objetivo 
de estudiar el efecto de cada una sobre el cine dietetico 
residual en el torrente sangufneo. Se asignaron al azar 
5 ratas prenadas a cada grupo dietetico, y a cada una 
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se le dio la dieta en el dfa 22 del embarazo. Se midio la 
cantidad de cine, en partes por millon. Los datos son 
los que siguen: 


1 

0.50 

0.42 

0.65 

0.47 

0.44 

Dieta 2 

0.42 

0.40 

0.73 

0.47 

0.69 

3 

1.06 

0.82 

0.72 

0.72 

0.82 


Determine si hay diferencia significativa en el cine die- 
tetico residual entre las tres dietas. Use a = 0.05. Lleve 
a cabo un anova de un solo factor. 

13.64 Se hizo un estudio para comparar el rendi- 
miento de la gasolina para 3 marcas competidoras. Se 
seleccionaron al azar 4 modelos diferentes de automovil 
de tamano variable. A continuation se presentan los 


datos, en millas por galon. El orden de prueba es alea- 
torio para cada modelo. 


Marca de gasolina 


Modelo 

A 

B 

C 

A 

32.4 

35.6 

38.7 

B 

28.8 

28.6 

29.9 

C 

36.5 

37.6 

39.1 

D 

34.4 

36.2 

37.9 


a) Analice la necesidad de utilizar mas de un solo mo- 
delo de automovil. 

b) Considere el anova de la siguiente salida del sas que 
se observa en la figura 13.16. ^Es importante la mar- 
ca de la gasolina? 

c) i,Que marca de gasolina seleccionan'a usted? Consul- 
te el resultado de la prueba de Duncan. 




The GLM 

Procedure 


Dependent Variable 

: MPG 

Sum of 



Source 

DF 

Squares 

Mean Square 

F Value 

Model 

5 

153.2508333 

30.6501667 

24.66 

Error 

6 

7.4583333 

1.2430556 


Corrected Total 

11 

160.7091667 




Pr > F 
0.0006 


R-Square Coeff Var Root MSE MPG Mean 

0.953591 3.218448 1.114924 34.64167 


Source 

Model 

Brand 


DF Type III SS 
3 130.3491667 

2 22.9016667 


Mean Square F Value 
43.4497222 34.95 

11.4508333 9.21 


Pr > F 
0.0003 
0.0148 


Duncan’s Multiple Range Test for MPG 
NOTE: This test controls the Type I comparisonwise error rate, not 
the experimentwise error rate. 


Alpha 0.05 
Error Degrees of Freedom 6 
Error Mean Square 1 . 243056 


Number of Means 2 3 

Critical Range 1.929 1.999 

Means with the same letter are not significantly different. 


Duncan Grouping 
A 
A 

B A 

B 

B 


Mean 

36.4000 

34.5000 

33.0250 


Brand 

C 


Figura 13.16: Impresion de sas para el Ejercicio de Repaso 13.64. 
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The GLM Procedure 


Dependent Variable: gasket 


Source 

DF 

Sum of 
Squares 

Mean Square 

F Value 

Pr > F 

Model 

5 

1.68122778 

0.33624556 

76.52 

<.0001 

Error 

Corrected Total 

12 

17 

0.05273333 

1.73396111 

0.00439444 




R-Square Coeff Var Root MSE gasket Mean 

0.969588 1.734095 0.066291 3.822778 


Source 


DF 

Type III SS 

Mean Square F 

Value Pr > F 

material 


2 

0.81194444 

0.40597222 

92.38 <.0001 

machine 


1 

0.10125000 

0.10125000 

23.04 0.0004 

material*machine 

2 

0.76803333 

0.38401667 

87.39 <.0001 

Level of 

Level of 

gasket- 


material 

machine 

N 

Mean 

Std Dev 

cork 

A 


3 

4.32666667 

0.06658328 

cork 

B 


3 

3.91333333 

0.09291573 

plastic 

A 


3 

3.94666667 

0.06027714 

plastic 

B 


3 

3.47666667 

0.05507571 

rubber 

A 


3 

3.42000000 

0.06000000 

rubber 

B 


3 

3.85333333 

0.05507571 

Level of 



gasket 


material 

N 


Mean 

Std Dev 


cork 

6 


4.12000000 

0.23765521 


plastic 

6 


3.71166667 

0.26255793 


rubber 

6 


3.63666667 

0.24287171 



Level of 
machine N 

A 9 

B 9 


gasket 

Mean Std Dev 
3.89777778 0.39798800 
3.74777778 0.21376259 


Figura 13.17: Salida del sas para el ejercicio de repaso 13.65. 


13.65 Una compaiii'a que troquela empaques de hojas 
de caucho, plastico y corcho desea comparar el numero 
medio de empaques producidos por hora para 3 tipos 
de material. Como bloques se eligieron al azar a 2 ma- 
quinas troqueladoras. Los datos representan el numero 
de empaques (en miles) producidos por liora. En la figu- 
ra 13.17 se observa la salida del analisis. 


Material 


Maquina 

Corcho 

Caucho 

Plastico 

A 

B 

4.31 4.27 4.40 
3.94 3.81 3.99 

3.36 3.42 3.48 
3.91 3.80 3.85 

4.01 3.94 3.89 
3.48 3.53 3.42 


a) i,Por que habria que elegir las maquinas troquelado- 
ras como bloques? 


b) Grafique las 6 medias para las combinaciones de ma- 
quinas y materiales. 

c) i.Hay un material que sea mejor? 

d ) ^Existe interaction entre los tratamientos y los blo- 
ques? Si es asf, diga si la interaction ocasiona alguna 
dificultad seria para obtener una conclusion adecua- 
da. Explique su respuesta. 

13.66 Se realizo un experimento para comparar 3 
tipos de pintura, con la finalidad de determinar si 
hay evidencia de diferencias en sus calidades de uso, 
y se expusieron a acciones abrasivas y se midieron las 
horas hasta que la abrasion se noto. Se usaron 6 espe- 
timenes para cada tipo de pintura. Los datos son los 
siguientes: 
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Tipo de pintura 

1 2 3 

158 97 282 515 264 544 317 662 213 
315 220 115 525 330 525 536 175 614 

a) Efectue un analisis de varianza para determinar si la 
evidencia sugiere que la calidad de uso de las 3 pintu- 
ras es diferente. En sus conclusiones utilice un valor P. 

b) Si se encuentran diferencias significativas, diga cua- 
les son. ^Hay una pintura que destaque? Analice sus 
hallazgos. 

c) Haga todos los analisis graficos que necesite para 
determinar si son validas las suposiciones que se hi- 
cieron en el inciso o). Analice sus hallazgos. 

d ) Suponga que se determina que los datos para cada 
tratamiento siguen una distribution exponential. 
^.Sugiere esto un analisis alternative? Si fuera asi, 
hagalo y de sus conclusiones. 


13.67 Se utilizaron 4 localidades diferentes del noroes- 
te para colectar mediciones del ozono, en partes por 
millon. Se colectaron cantidades de ozono en 5 muestras 
en cada localidad. 

Localidad 


1 

2 

3 

4 

0.09 

0.15 

0.10 

0.10 

0.10 

0.12 

0.13 

0.07 

0.08 

0.17 

0.08 

0.05 

0.08 

0.18 

0.08 

0.08 

0.11 

0.14 

0.09 

0.09 


a) ^Hay information suficiente que sugiera que existen 
diferencias en los niveles medios de ozono de una 
localidad a otra? Guiese usando un valor P. 

b) Si se encuentran diferencias significativas en el inci- 
so a), caracterice su naturaleza. Emplee cualesquie- 
ra metodos que haya aprendido. 


13.16 Nociones erroneas y riesgos potenciales; 

relacion con el material de otros capftulos 

A1 igual que en otros procedimientos de capftulos anteriores, el analisis de varianza 
es razonablemente robusto con respecto a la suposicion de normalidad; pero lo es 
menos en cuanto a la de varianza homogenea. 

La prueba de Bartlett para igual varianza es debil en extremo con respecto a la 
normalidad. 



Capitulo 14 

Experimentos factoriales 
(dos o mas factores) 


14.1 Introduccion 

Considere una situation en la que haya interes por estudiar el efecto de dos fac- 
tores, Ay B, sobre alguna respuesta. Por ejemplo, en un experimento quimico nos 
gustaria variar en forma simultanea la presion de reaction y el tiempo de reaction, y 
estudiar el efecto que cada uno tiene sobre el producto. En un experimento biologico 
resulta de interes estudiar el efecto que tienen el tiempo de secado y la temperatura 
sobre la cantidad de solidos (porcentaje por peso) que queda en las muestras de 
levadura. Igual que en el capitulo 13, el termino factor se utiliza en un sentido ge- 
neral para denotar cualquier caracterfstica del experimento que pueda variar de un 
ensayo a otro, como la temperatura, el tiempo o la presion. Los niveles de un factor 
se definen como los valores reales que se utilizan en el experimento. 

Para cada uno de estos casos, es importante determinar no solo si cada uno de los 
dos factores tiene influencia en la respuesta, sino tambien si hay interaction signifi- 
cativa entre ellos. Hasta donde concierne a la terminologfa, el experimento descrito 
aqui es de dos factores, y el diseno experimental podria ser ya sea uno completamen- 
te aleatorio donde las distintas combinaciones de tratamiento se asignan al azar a 
todas las unidades experimentales, o un diseno por bloques completamente aleatorio 
donde las combinaciones de factores se asignan al azar a los bloques. En el caso del 
ejemplo de la levadura, las distintas combinaciones de tratamiento de temperatura 
y tiempo de secado se asignarian al azar a las muestras de levadura, si se empleara 
un diseno por completo aleatorio. 

En este capitulo se amplian a dos y tres factores muchos de los conceptos que 
se estudian en el capitulo 13. El objetivo principal de este material es el empleo del 
diseno completamente aleatorio con un experimento factorial. Un experimento fac- 
torial con dos factores implica ensayos experimentales (o uno solo) con todas las com- 
binaciones de factores. Por ejemplo, en el caso de la temperatura y tiempo de secado 
con, digamos, tres niveles de cada uno y n = 2 corridas por cada una de las nueve 
combinaciones, tendriamos un diseno factorial de dos factores completamente aleatorio. 
Ninguno de ellos es un obstaculo; nos interesa la manera en que cada uno influye en 
el porcentaje de solidos en las muestras, y si interaction o no. Entonces, el biologo 
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dispondrfa de 18 muestras fi'sicas de material que constituirfan unidades experimen- 
tales. Luego, estas se asignarfan al azar a las 18 combinaciones (nueve combinaciones 
de tratamiento, cada una de ellas por duplicado). 

Antes de entrar en detalles analfticos, sumas de cuadrados y demas, serfa intere- 
sante que el lector observe la clara conexion entre lo que hemos descrito y la situa- 
tion con el problema de un solo factor. Considere el experimento de la levadura. La 
explication de los grados de libertad ayuda a que el lector o el analista visualicen 
la ampliation del metodo. En un initio deberi'an verse a las 9 combinaciones de tra- 
tamientos como si representaran un factor con 9 niveles (8 grados de libertad). Asf, 
un vistazo inicial a los grados de libertad arroja lo siguiente: 

Combinaciones de tratamiento 8 

Error 9_ 

Total 17 

Efectos principales e interaction 

En realidad, el experimento podria analizarse como se describe en la tabla anterior. 
Sin embargo, es probable que la prueba F para las combinaciones no de al analista 
la information que desea, es decir, el papel de la temperatura y del tiempo de secado. 
Tres tiempos de secado tienen asociados 2 grados de libertad, y a tres temperaturas 
se asocian tambien 2 grados de libertad. Los factores principales, temperatura y 
tiempo de secado, reciben el nombre de efectos principales, los cuales representan 
4 de los 8 grados de libertad para las combinaciones de factores. Los 4 grados de 
libertad adicionales se asocian con la interaccion entre los dos factores. Como resul- 
tado, el analisis incluye 


Combinaciones 8 

Temperatura 2 

Tiempo de secado 2 

Interaccion 4 

Error 9 

Total 17 


Del capitulo 13 es necesario recordar que en un analisis de varianza los factores 
pueden verse como fijos o aleatorios, en funcion del tipo de inferencia que se desea 
hacer y de la manera en que se eligen los niveles. Aqui, se debe considerar los efectos 
fijos, los aleatorios e incluso los casos en que los efectos son mixtos. Conforme avan- 
cemos en estos temas pondremos mayor atencion en los cuadrados esperados de las 
medias. En la siguiente section nos centraremos en el concepto de interaccion. 


14.2 Interaccion en el experimento de dos factores 

En el modelo de bloques aleatorizados que se estudio en forma previa, se supuso que 
en cada bloque se tomaba una observation de cada tratamiento. Si la suposicion del 
modelo es correcta, es decir, si los bloques y los tratamientos son los unicos efectos 
reales y la interaccion no existe, el valor esperado del error cuadratico de la media es 
la varianza, tr 2 , del error experimental. Sin embargo, suponga que existe interaccion 
entre los tratamientos y los bloques, como lo indica el modelo 


Vij — p + Oti + Pj + 
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de la section 13.9. El valor esperado del error cuadratico de la media se habfa dado 
como 


E 


SSE 

_(6- l)(fc - 1). 


1 

(6 - l)(fc - 1) 


k b 


££w) 


2 

ij ' 


Los efectos del tratamiento y los bloques no aparecen en el error cuadratico esperado 
de la media, aunque los efectos de la interaction si. Entonces, si en el modelo hay 
interaction, el error cuadratico de la media refleja variation debida al error experi- 
mental mas una contribution de la interaction y, para este plan experimental, no 
hay forma de separarlos. 


La interaction y la interpretacion de los efectos principales 

Desde el punto de vista del experimentador, pareceria necesario llegar a una prueba 
significativa sobre la existencia de interaction, al separar la variation del error ver- 
dadero de aquel que se debe a la interaction. Los efectos principales, Ay B, adoptan 
un significado distinto en presencia de la interaction. En el ejemplo biologico ante- 
rior, el efecto que el tiempo de secado tiene sobre la cantidad de solidos que quedan 
en la levadura muy bien podrian depender de la temperatura a la que se expusieron 
las muestras. En general, habria situaciones experimentales en las cuales el factor A 
tuviera un efecto positivo sobre la respuesta en un nivel del factor B\ en tanto que 
con un nivel distinto de este, el efecto de A seria negativo. Aqui se usa el termino 
efecto positivo para indicar que el producto o la respuesta se incrementan confor- 
me los niveles de un factor dado aumentan de acuerdo con cierto orden definido. En 
el mismo sentido, un efecto negativo corresponde a una disminucion del producto 
para niveles crecientes del factor. 

Por ejemplo, considere los datos siguientes de temperatura (factor A con niveles 
ti, t 2 y t 3 , en orden creciente) y tiempo de secado d±, d 2 y d 3 (tambien en orden cre- 
ciente). La respuesta se expresa en porcentaje de solidos. Estos datos son hipoteticos 
por complete, y se dan para ilustrar un aspecto. 


B 


A 

di 

d 2 

d 3 

Total 

tl 

4.4 

8.8 

5.2 

18.4 

t2 

7.5 

8.5 

2.4 

18.4 

h 

9.7 

7.9 

0.8 

18.4 

Total 

21.6 

25.2 

8.4 

55.2 


Es evidente que el efecto de la temperatura es positivo sobre el porcentaje de so- 
lidos con el tiempo de secado bajo d\, pero negativo para el tiempo alto d 3 . Esta in- 
teraction clara entre la temperatura y el tiempo de secado tiene un interes notorio 
para el biologo; pero, con base en los totales de las respuestas para las temperaturas 
th y t 3 , la suma de los cuadrados de la temperatura, SSA , producirfa un valor de 
cero. Entonces, se dice que la presencia de la interaction enmascara el efecto de la 
temperatura. Por ello, si se considera el efecto medio de la temperatura, promediado 
para el tiempo de secado, no existe efecto alguno. Entonces, esto define el efecto 
principal. Pero, por supuesto, es probable que esto no sea pertinente para el biologo. 

Antes de sacar cualesquiera conclusiones finales de las pruebas de significancia 
sobre los efectos principales y los de la interaction, el experimentador primero 
deberfa observar si la prueba para la interaction es significativa o no. Si 


576 


Capitulo 14 Experimentos factoriales (dos o mas factores) 


la interaction no es significativa, entonces los result ados de las pruebas sobre los 
efectos principales carecen de significado. No obstante, si la interaccion debe ser sig- 
nificativa, entonces unicamente tienen significado aquellas pruebas sobre los efectos 
principales que resultan significativos. En presencia de interaccion, los efectos prin- 
cipales no significativos bien podrfan ser resultado del enmascaramiento, y dictan la 
necesidad de observar la influencia de cada factor a niveles fijos del otro. 


Representacion grafica de la interaccion 

La presencia de interaccion, as! como su influencia cientffica, puede interpretarse 
bien usando graficas de interaccion. Estas dan con claridad una vision panorami- 
ca de la tendencia de los datos para mostrar el efecto que tiene cambiar un factor, 
conforme se pasa de un nivel a otro del segundo factor. La figura 14.1 ilustra la 
interaccion tan marcada entre la temperatura y el tiempo de secado. La interaccion 
se revela en la falta de paralelismo entre las li'neas. 



1 2 3 

Temperatura 


Figura 14.1: Grafica de la interaccion para los datos de temperatura y de tiempo 

de secado. 


El efecto relativamente fuerte de la temperatura sobre el porcentaje de solidos 
con el tiempo de secado mas bajo se rcflcja en la marcada pendiente de d\. Con el 
tiempo de secado medio, efe, la temperatura tiene muy poco efecto; mientras que 
con el tiempo de secado alto g ?3 la pendiente negativa indica un efecto negativo de 
la temperatura. Las graficas de la interaccion como las que se muestran dan al cien- 
tffico una interpretation rapida y significativa de la interaccion que existe. Debe ser 
claro que el paralelismo en las graficas indica una ausencia de interaccion. 


Necesidad de observaciones multiples 

En el experimento de dos factores, la interaccion y el error experimental solo se 
separan si se hacen observaciones multiples con las distintas combinaciones de trata- 
miento. Para maxima eficiencia, con cada combination debe haber el mismo numero 
n de observaciones. Estas deben ser repeticiones verdaderas, no unicamente medi- 
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ciones verdaderas. Por ejemplo, en la ilustracion de la levadura, si para cada com- 
bination de temperatura y tiempo de secado se tomaran n = 2 observaciones, habria 
dos muestras distintas y no solo mediciones repetidas sobre la misma muestra. Esto 
permitina que la variabilidad debida a las unidades experimentales apareciera en el 
“error”, de manera que la variation no solo fuera error de medicion. 


14.3 Analisis de varianza de dos factores 

Para presentar las formulas generales para el analisis de varianza de un experimento 
de dos factores que utiliza observaciones repetidas en un diseno por completo aleato- 
rio, debe considerarse el caso de n repeticiones de las combinaciones del tratamiento, 
determinadas por a niveles del factor Ay b niveles del factor B. Las observaciones 
pueden clasificarse usando un arreglo rectangular, donde los renglones representan 
los niveles del factor A; y las columnas, los del factor B. Cada combination de trata- 
miento define una celda del arreglo. Asf, se tienen ab celdas, cada una de las cuales 
contiene n observaciones. Se denota con y.jjk la fc-esima observation tomada en el 
i-esimo nivel del factor A y el j-esimo nivel del factor B ; en la tabla 14. 1 se muestran 
las abn observaciones. 


Tabla 14.1: Experimento con dos factores con n repeticiones 


B 


A 

1 

2 

b 

Total 

Media 

1 

2/m 

2/121 

yibi 

Pi.. 

2/i.. 


2/112 

2/122 

2/162 




Vlln 

Vl2n 

e 

-o 



2 

2/211 

2/221 

2/261 

P 2 .. 

2/2.. 


2/212 

?/222 

2/262 




2/21 n 

2/22 n 

V2bn 



a 

2/all 

Va21 

Vabl 

Pa.. 

Ua.. 


Ual2 

Va22 

Vab2 




Vain 

Va2n 

Vabn 



Total 

Pi. 

p 2 . 

Y b . 

P.. 


Media 

y. i. 

27.2. 

y.b. 


27... 


Las observaciones en la celda (jj)-esima constituyen una muestra aleatoria de 
tamano n de una poblacion que se supone tiene distribution normal con media Hij 
y varianza a 2 . Se supone que todas las ab poblaciones tienen la misma varianza a 2 . 
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Se definen los si'mbolos siguientes, que son de utilidad y algunos de los cuales se 
utilizaron en la tabla 14.1: 

Yij. = suma de las observaciones en la (ij)-esima celda, 

Yi„ = suma de las observaciones para el i-esimo nivel del factor A, 

Yj . = suma de las observaciones para el j-esimo nivel del factor B, 

Y , = suma de todas las abn observaciones, 

yij, = media de las observaciones en la (ijj-esima celda, 

yi ,, = media de las observaciones para el i-esimo nivel del factor A , 

y.j. = media de las observaciones para el j-esimo nivel del factor 13, 

y,„ = media de todas las abn observaciones. 

A diferencia de la situation para un solo factor, que se cubrio con amplitud en 
el capitulo 13, en este supondremos que las poblaciones, de las que se toman n 
observaciones independientes con distribution identica, son combinaciones de los 
factores. Asimismo, se supondra siempre que de cada combination de factores se 
toma un numero igual (u) de observaciones. En los casos en que los tamanos de las 
muestras por combination son clesiguales, los calculos son mas complicados, aunque 
los conceptos son transferibles. 

Modelo e hipotesis para el problema con dos factores 

Cada observation de la tabla 14-1 puede escribirse en la siguiente forma: 

Vijk Pij i C ij k , 

donde Cijk mide las desviaciones, con respecto de la media p^, de los valores ytjk 
observados en la (y)-esima celda. Si ( a/3)tj denota el efecto de la interaction del 
i-esimo nivel del factor A y el j-esimo nivel del factor B , cni el efecto del Aesimo 
nivel del factor A, /3j el efecto del j-esimo nivel del factor B 1 y p la media conjunta, 
escribimos 


Pij — P + OLi + (3j + ( Ot/3)ij , 

y, entonces, 

Vijk P A Oii ~\~ flj H - 

a las que se imponen las restricciones 

aba b 

^ 2 ^= 0 , = 0, = 0, ^(a/3)y = 0. 

i= 1 j = 1 i = 1 j = 1 

Las tres hipotesis por probar son las siguientes: 

1. L7q. (x^ ot 2 * Oi a 0, 

Hp. A1 menos una de las at no es igual a cero. 

2. H': ft = & = ••■ ft = 0, 

H 1 : A1 menos una de las (3j no es igual a cero. 
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3. H'o': (a/?) n = (a/3) 12 = • • • {cx0) ab = 0, 

H 1 : A1 menos una de las (a/3), 7 no es igual a cero. 

Se alerta al lector del problema del enmascaramiento de los efectos principales 
cuando la interaction es un contribuyente de importancia en el modelo. Se reco- 
mienda que, en primer lugar, se considere el resultado de la prueba de interaccion 
y, luego, la interpretacion de la prueba del efecto principal; la naturaleza de la con- 
clusion cientffica depende de si hay interaccion. Si esta no existe, entonces pueden 
probarse las hipotesis 1 y 2, y la interpretacion es muy sencilla. No obstante, si se 
descubre que hay interaccion la interpretacion serfa mas complicada, como se vio 
al analizar el tiempo de secado y la temperatura en la section previa. La estructura 
de las pruebas de hipotesis 1, 2 y 3 se estudiaran en las secciones siguientes. En el 
analisis del ejemplo 14.1 se tratara la interpretacion de los resultados. 

Las pruebas de hipotesis anteriores se basaran en la comparacion de estimadores 
independientes de a 2 proporcionados por la separation de la suma total de cuadra- 
dos de los datos en cuatro componentes, mediante la siguiente identidad. 

Particion de la 


Teorema 14.1: 


variabilidad en el caso de dos factores 


Identidad de la suma de cuadrados 

a b n a b 

= bn ^2(yi - - y-) 2 + -y.f 

i= 1 j = 1 k = 1 i= 1 j = l 

a b a b n 

+ n J2(y*i ~ - y-j- + v -) 2 + J2J2 J2( y d k - va) 2 

i= 1 j = 1 i= 1 j = 1 k= 1 


Simbolicamente, la identidad de la suma de cuadrados se escribe as! 
sst = ssa + ssb + SS(AB) + SSE, 

donde SSA y ssb se denominan la suma de cuadrados para los efectos principales A y 
B , respectivamente, SS(AB) recibe el nombre de suma de cuadrados de la interac- 
tion para A y B, y sse es la suma de errores al cuadrado. La particion de los grados 
de libertad se efectua de acuerdo con la identidad 

abn — 1 = (a — 1) + (b — 1) + (a — 1)(6 — 1) + ab(n — 1). 


Formacion de los cuadrados de la media 

Si dividimos cada una de las sumas de los cuadrados en el lado derecho de la identi- 
dad de la suma de cuadrados entre su numero correspondiente de grados de libertad, 
obtenemos los cuatro estadi'sticos 

2 _ SSA 2 _ _SSB_ 2 _ SSjAB) 2 _ S SE 

1 a — 1’ 2 6—1’ 3 (a— 1)(6— 1)’ a6(n — 1) 

Todos estos estimadores de la varianza son estimadores independientes de <r 2 , a 
condition de que no haya efectos a*, fdj ni, por supuesto, ( a(3)ij ■ Si la suma de cua- 
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drados se interpreta como funciones de las variables aleatorias independientes j/m, 
2 / 112 , ■ • • , y a bn , no es difi'cil comprobar que 


E{Sl) 

E{Sl) 

E(Sl) 

E(S 2 ) 


E 

E 

E 

E 


SSA 
a — 1 

SSB 


nb 


9 ILU V — ^ 

cr 2 + > 

n — 1 ^ 


cr Z + 


6-1 

SS(AB) 

.(a ~ 1)(6 — 1 ) 

SSE 

ab(n — 1) 


a — 1 

i= 1 

na V' n2 

6 — 1 Pi ’ 

1=1 


cr 2 + 


a 6 




(a-l)(6-l)^^ 


para las cuales s^ ob^erva fye inmediato que los cuatro estimadores de a 1 son inses- 
gados cuando Ho, Hq y Hq son verdaderas. 

Para probar la hipotesis H 0 de que los efectos de los factores A son todos iguales 
a cero, se calcula la siguiente razon: 


Prueba F para el 
factor A 

s 2 

h = ^, 

s z 


que es un valor de la variable aleatoria F\ con distribution F con a — 1 grados de 
libertad y ab(n — 1) grados de libertad cuando H 0 es verdadera. La hipotesis nula 
se rechaza al nivel de significancia a cuando fi > / Q [a - l,ab(n — 1)]. Asimismo, 
para probar la hipotesis H 0 de que los efectos del factor B todos son iguales a cero, 
se calcula la razon 

Prueba F para el 
factor B 

s 2 

/2 = -f, 

s z 


que es un valor de la variable aleatoria F% con distribution F con 6 — 1 y ab{n — 1) 
grados de libertad cuando H 0 es verdadera. Esta hipotesis se rechaza con el nivel de 
significancia a cuando /2 > f a [b— 1, ab(n — 1)]. Por ultimo, para probar la hipotesis 
Hq que los efectos de la interaction son todos iguales a cero, se calcula la razon que 
sigue: 

Prueba F para la 
interaction 

s 2 

/3 = - f, 

S z 


que es un valor de la variable aleatoria F 3 que tiene distribution Fcon (a — 1)(6 — 1) 
y ab(n — 1) grados de libertado cuando Ho es verdadera. Concluimos que hay 
interaction cuando fo > / Q [(a — 1)(6 — 1), ab(n — 1)]. 

Como se indico en la section 14.2, se recomienda interpretar la prueba para la in- 
teraction antes de tratar de sacar inferencias sobre los efectos principales. Si la inter- 
action no es significativa, es claro que hay evidencia de que las pruebas sobre los 
efectos principales son interpretables. El rechazo de la hipotesis 1 de la pagina 578 
implica que las medias de la respuesta a los niveles del factor A son distintos en 
forma significativa; mientras que el rechazo de la hipotesis 2 implica una condition 
similar para las medias a los niveles del factor B. Sin embargo, una interaction sig- 
nificativa podrfa muy bien implicar que los datos debenan analizarse en forma algo 
distinta — quiza con la observation del efecto del factor A a los niveles del 
factor B, y asf sucesivamente. 
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Ejemplo 14.1: 


Solucion: 


Los calculos del problema de analisis de la varianza para un experimento de dos 
factores con n repeticiones, por lo general, se resumen como se ilustra en la tabla 
14.2. 


Tabla 14.2: Analisis de varianza para el experimento de dos factores con n 
repeticiones 


Fuente de 

Suma de 

Grados de 

Media 

f 

variacion 

cuadrados 

libertad 

cuadratica 

calculada 

Efecto principal 

A 

SSA 

a — 1 

„2 _ SSA 

s i - 1AA 

/i = # 

B 

Interacciones 
de dos factores 

SSB 

6—1 

„2 SSB 

s 2 - T^T 

/2=S 

AB 

SS(AB) 

(a — 1)(6- 1) 

„2 SS(AB) 

II 

USV 

"3 - (a — 1)(6— 1) 

Error 

SSE 

ab{n — 1) 

„2 SSE 

ab(n— 1) 


Total 

SST 

abn — 1 




En un experimento que se realice para determinar cual de tres sistemas de misiles 
distintos es preferible, se midio la tasa de combustion del propulsor para 24 arran- 
ques estaticos. Se emplearon 4 tipos de combustible diferentes. El experimento ge- 
nero observaciones duplicadas de las tasas de combustion con cada combination de 
los tratamientos. 

Los datos, ya codificados, se dan en la tabla 14.3. Pruebe las siguientes hipotesis: 
a) H 0 : no hay diferencia en las tasas medias de combustion del propulsor cuando 
se emplean diferentes sistemas de misiles, b) H 0 : no existe diferencia en las tasas 
medias de combustion de los cuatro tipos de propulsor, c) H 0 : no hay interaction 
entre los distintos sistemas de misiles y los tipos diferentes de propulsor. 


Tabla 14.3: Tasas de combustion del propulsor 


Sistema 

de misiles 

Tipo de propulsor 

h 

^2 

^3 

b 4 

Ol 

34.0 

30.1 

29.8 

29.0 


32.7 

32.8 

26.7 

28.9 

02 

32.0 

30.2 

28.7 

27.6 


33.2 

29.8 

28.1 

27.8 

03 

28.4 

27.3 

29.7 

28.8 


29.3 

28.9 

27.3 

29.1 


1. a) H 0 : a 1 = a 2 = a 3 = 0. 

b) Hq : /5i = /?2 = /?3 = /?4 = 0. 

c) Hq': (a/3) n = {a/3) 12 = ■■■ ( a/3) 34 = 0. 

2. a) H 3 : A1 menos una de las a\ no es igual a cero. 

b) H l : A1 menos una de las (3j no es igual a cero. 

c) H r : A1 menos una de las {a/3)ij no es igual a cero. 
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Se utiliza la formula de la suma de cuadrados que se describio en el teorema 14.1. 
En la tabla 14.4 se presenta el analisis de varianza. 


Tabla 14.4: Analisis de varianza para los datos de la tabla 14.3 


Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Media 

cuadratica 

f 

calculada 

Sistema de misiles 

14.52 

2 

7.26 

5.84 

Tipo de propulsor 

40.08 

3 

13.36 

10.75 

Interaction 

22.16 

6 

3.69 

2.97 

Error 

14.91 

12 

1.24 


Total 

92.68 

23 




Se remite al lector al procedimiento Glm (modelos lineales generales) del SAS para 
el analisis de los datos de tasa de combustion, que aparece en la figura 14.2. Observe 
la forma en que al principio se prueba el “modelo” (11 grados de libertad), y por 
separado se prueban el sistema, el tipo y el sistema por tipo de interaction. La prueba 
/ sobre el modelo (P= 0.0030) prueba la acumulacion de los dos efectos principales 
y la interaction. 

a) Rechace H 0 y concluya que los distintos sistemas de misiles generan tasas me- 
dias diferentes de combustion del propulsor. El valor P es de aproximadamente 
0.017. 

b) Rechace H 0 y concluya que las tasas medias de combustion del propulsor no 
son las mismas para los cuatro tipos de propulsor. El valor P es mas pequeno 
que 0.0010. 

c) La interaction es casi insignificante al nivel 0.05, pero el valor P de aproxima- 
damente 0.0512 indicarfa que la interaction debe tomarse en serio. 


The GLM Procedure 

Dependent Variable: rate 




Sum of 




Source 

DF 

Squares 

Mean Square 

F Value 

Pr > F 

Model 

11 

76.76833333 

6.97893939 

5.62 

0.0030 

Error 

12 

14.91000000 

1.24250000 



Corrected Total 23 

91.67833333 




R-Square 

Coeff Var 

Root MSE 

rate Mean 



0.837366 

3.766854 

1.114675 

29.59167 



Source 

DF 

Type III SS 

Mean Square F 

Value 

Pr > F 

system 

2 

14.52333333 

7.26166667 

5.84 

0.0169 

type 

3 

40.08166667 

13.36055556 

10.75 

0.0010 

system+type 

6 

22.16333333 

3.69388889 

2.97 

0.0512 


Figura 14.2: Salida de SAS del analisis de los datos de la combustion del propulsor de la tabla 14.3. 


En este momento, debe establecerse algun tipo de interpretation de la interac- 
tion. Debe hacerse enfasis en que la significancia estadfstica de un efecto principal 
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Ejemplo 14.2: 


Solucion: 


tan solo implica que las medias marginales son significativamente distintas. Sin em- 
bargo, considere la tabla 14.5 de los promedios con dos factores. 


Tabla 14.5: Interpretation de la interaction 



61 

b 2 

£>3 

b 4 

Promedio 

0-1 

33.35 

31.45 

28.25 

28.95 

30.50 

02 

32.60 

30.00 

28.40 

27.70 

29.68 

O 3 

28.85 

28.10 

28.50 

28.95 

28.60 

Promedio 

31.60 

29.85 

28.38 

28.53 



Es evidente que hay mas information importante en el cuerpo de la tabla — ten- 
dencias que son inconsistentes con aquella que describen los promedios marginales. 
Es claro que la tabla 14.5 sugiere que el efecto del tipo de propulsor depende del 
sistema que se utiliza. Por ejemplo, para el sistema 3, el efecto del tipo de propulsor 
no parece ser importante, aunque tiene un efecto grande si se emplea ya sea el siste- 
ma 1 o el 2. Esto explica la interaction “significativa” entre esos dos factores. Mas 
adelante se haran mas descubrimientos sobre esta interaction. 


En relation con el ejemplo 14.1, elija dos contrastes ortogonales a la partition de la 
suma de cuadrados para el sistema de misiles en componentes con un solo grado de 
libertad, para usarlos en la comparacion de los sistemas 1 y 2 con el 3, y el sistema 
1 contra el sistema 2. 

El contraste para comparar los sistemas 1 y 2 con el 3 es 

OJl = fl l. + 1-12. ~ 2^3.- 


Un segundo contraste, ortogonal a wi, para comparar el sistema 1 con el 2, esta dado 
por u >2 = /Lti. — /T 2 .. Las sumas de los cuadrados con un solo grado de libertad son 


SSco i 


[244.0 + 237.4- (2)(228.8)] 2 
(8)[(l)2 + (l)2 + (-2)2] 


y 


SSiU2 


(244.0 - 237. 4) 2 
(8)[(l) 2 + (-l) 2 ] ■ ' 


Observe que SSu > i + SSlo2 = SSA, como se esperaba. Los valores / calculados corres- 
pondientes a u>\ y L 02 son, respectivamente, 


/1 = 


11.80 

1.24 


= 9.5 


y 


h 


2.72 

+24 


2 . 2 . 


A1 comparar con el valor crftico /o.o 5 (l> 12) = 4.755, se encuentra que fi es signifi- 
cative. En realidad, el valor Pe s menor que 0.01. Asf, el primer contraste indica que 
se rechaza la hipotesis 


Ho- + M 2 .) — M3. 

Como /2 < 4.75, las tasas medias de combustion de los sistemas primero y segundo 
no son diferentes en forma significativa. 
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Efecto de la interaction significativa en el ejemplo 14.1 

Si es verdadera la hipotesis de que en el ejemplo 14.1 no hay interaction, podrfamos 
hacer las comparaciones generates del ejemplo 14.2 relacionado con los sistemas de 
misiles, en vez de las comparaciones separadas para cada propulsor. De manera 
similar, es posible realizar comparaciones generates entre los propulsores, en vez de 
comparar por separado cada sistema de misiles. Por ejemplo, podrfan compararse los 
propulsores 1 y 2 con el 3 y 4, y tambien el 1 contra el 2. Las razones / resultantes, 
cada una con 1 y 12 grados de libertad, resultan ser de 24.86 y 7.41, respectivamen- 
te, y ambas son muy significativas al nivel 0.05. 

De los promedios de los propulsores, parece haber evidencia de que el 1 ofrece 
la mayor tasa media de combustion. Un experimentador prudente seri'a cauteloso 
al sacar concusiones generates en un problema como este, donde la razon / de la 
interaction esta apenas por debajo del valor critico 0.05. Por ejemplo, la evidencia 
conjunta, 31.60 contra 29.85 sobre el promedio para los dos propulsores, indica con 
claridad que el 1 es superior al 2, en terminos de una mayor tasa de combustion. Sin 
embargo, si nos restringimos al sistema 3, donde tenemos un promedio de 28.85 para 
el propulsor 1 en oposicion a 28.10 para el 2, parece haber una diferencia minima o 
incluso ninguna entre estos dos propulsores. De hecho, pareceria asimismo que hay 
una estabilizacion de las tasas de combustion para los distintos propulsores si se ope- 
ra con el sistema 3. Es claro que existe evidencia conjunta que indica que el sistema 

1 da una tasa de consumo mayor que el sistema 3; pero parece que esta conclusion 
no se mantiene si nos restringimos al propulsor 4. 

El analista puede hacer una prueba t sencilla con el empleo de las tasas de consu- 
mo del sistema 3, con la finalidad de recabar evidencias concluyentes de que la inte- 
raction produce dificultades considerables en la obtencion de conclusiones generates 
sobre los efectos principales. Considere una comparacion del propulsor 1 contra el 

2 unicamente usando el sistema 3. Se toma prestado un estimador de cr 2 del analisis 
conjunto, es decir, se utiliza s 2 = 1.24 con 12 grados de libertad, y se emplea 


0.75 
\j2s 2 jn 


0.75 

VL24 


0.67, 


que no esta nada cerca de ser significativa. Esta ilustracion sugiere que, en presencia 
de interaction, deberia tenerse cautela con la interpretation estricta de los efectos 
principales. 


Analisis grafico para el problema de dos factores del ejemplo 14.1 

Muchos de los mismos tipos de ilustraciones graficas que se sugirio emplear en los 
problemas con un factor tambien se aplican en el caso de dos factores. Las graficas 
en dos dimensiones de las medias de las celdas, o de las combinaciones de tratamien- 
tos, brindan un panorama de la presencia de las interacciones entre los dos factores. 
Ademas, una grafica de los residuos contra los valores ajustados bien podrla dar una 
indication acerca de si se cumple o no la suposicion de la varianza homogenea. Por 
supuesto, es frecuente que una trasgresion de la suposicion de varianza homogenea 
implique un aumento en la varianza del error, conforme los numeros de la respuesta 
se vuelven mas grandes. Como resultado, esta grafica podria resaltar la trasgresion. 

La figura 14.3 muestra la grafica de las medias de las celdas para el caso del 
propulsor de los sistemas de misiles, que se ilustraron en el ejemplo 14.1. Observe 
(graficamente en este caso) cuanta falta de paralelismo hay. Vea lo aplanado de la 
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parte de la figura que corresponde al efecto del propulsor en el sistema 3. Esto ilustra 
la interaction entre los factores. La figura 14.4 muestra la grafica de los residuos 
contra los valores ajustados para los mismos datos. No hay dificultad visible con la 
suposicion de la varianza homogenea. 



Figura 14.3: Grafica de las medias de las celdas para los datos del ejemplo 14.1. Los 
numeros representan sistemas de misiles. 


a> 

a: 



A 

y 


Figura 14.4: Grafica de los residuos de los datos del ejemplo 14.1. 


Ejemplo 14.3:1 Un ingeniero electrico investiga un proceso de grabar con plasma que se emplea en 
la fabrication de semiconductores. Es de interes estudiar los efectos de dos factores, la 
tasa de flujo (A) del gas C 2 F 6 , y la potencia aplicada al catodo (B). La respuesta es 
la tasa de grabado. Cada factor se opera a tres niveles y se hacen 2 corridas experi- 
mentales sobre la tasa de grabado, para cada una de las 9 combinaciones. El plan- 
teamiento es el de un diseho aleatorio por completo. En la tabla 14.6 se presentan 
los datos. La tasa de grabado se expresa en A°/min. 

Los niveles de los factores estan en orden ascendente, donde el nivel 1 es el mas 
bajo y el 3 el mas alto. 
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Tabla 14.6: Datos para el ejemplo 14.3 


Potencia suministrada 


Tasa de flujo del C 2 F 6 

1 

2 

3 

1 

288 

488 

670 


360 

465 

720 

2 

385 

482 

692 


411 

521 

724 

3 

488 

595 

761 


462 

612 

801 


а) Elabore una tabla de analisis de varianza y saque conclusiones, empezando con 
la prueba sobre la interaccion. 

б) Haga pruebas sobre los efectos principales y saque conclusiones. 

Solucion: En la figura 14.5 se muestra una salida del SAS. De esa salida se concluye lo si- 

guiente. 


The GLM Procedure 
Dependent Variable: etchrate 




Sum of 




Source 

DF 

Squares 

Mean Square 

F Value 

Pr > F 

Model 

8 

379508.7778 

47438.5972 

61.00 

<.0001 

Error 

9 

6999.5000 

777.7222 



Corrected 

Total 17 

386508.2778 




R-Square 

Coeff Var 

Root MSE 

etchrate 

Mean 


0.981890 

5.057714 

27.88767 

551. 

,3889 


Source 

DF 

Type III SS 

Mean Square 

F Value 

Pr > F 

c2f 6 

2 

46343.1111 

23171.5556 

29.79 

0.0001 

power 

2 

330003.4444 

165001.7222 

212.16 

<.0001 

c2f6*power 4 

3162.2222 

790.5556 

1.02 

0.4485 


Figura 14.5: Salida del SAS para el ejemplo 14.3. 


a) El valor Ppara la prueba de interaccion es 0.04485. Se concluye que la interac- 
cion no es significativa. 

b) Existe diferencia significativa en la tasa media de grabado para los 3 niveles de 
la tasa de flujo del C 2 F 6 . Una prueba de Duncan muestra que la tasa media 
de grabado para el nivel 3 es significativamente mayor que para el nivel 2, y 
la tasa para el nivel 2 es significativamente mayor que para el nivel 1. Vease la 
figura 14.6a). 

Con base en el nivel de potencia al catodo, hay diferencia significativa en la tasa 
media de grabado. Una prueba de Duncan revela que la tasa de grabado para el 
nivel 3 es significativamente mas alta que para el 2, y que la tasa para el nivel 2 es 
significativamente mas alta en que para el 1. Vease la figura 14.66). 
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Duncan Grouping 

Mean 

N 

c2f 6 

Duncan Grouping 

Mean 

N 

power 

A 

619.83 

6 

3 

A 

728.00 

6 

3 

B 

535.83 

6 

2 

B 

527.17 

6 

2 

C 

498.50 

(a) 

6 

1 

C 

399.00 

(b) 

6 

1 


Figura 14.6: a) Salida de sas para el ejemplo 14.3 (prueba de Duncan sobre la tasa de flujo del gas); b) 
Salida de sas para el ejemplo 14.3 (prueba de Duncan sobre la potencia). 


Ej ercicios 

14.1 Se realizo un experimento para estudiar el efecto 
de la temperatura y el tipo de horno sobre la vida de 
un componente particular que esta a prueba. En el ex- 
perimento se utilizaron 4 tipos de horno y 3 niveles de 
temperatura. Se asignaron cuatro piezas al azar, 2 para 
cada combination de tratamientos, y se registraron los 
resultados siguientes. 


Temperatura Horno 


(grados) 

Oi 

o 2 

o 3 

o 4 

500 

227 

214 

225 

260 


221 

259 

236 

229 

550 

187 

181 

232 

246 


208 

179 

198 

273 

600 

174 

198 

178 

206 


202 

194 

213 

219 


Con un nivel de significancia de 0.05, pruebe las hipo- 
tesis de que 

a) las temperaturas diferentes no tienen efecto sobre la 
vida del componente; 

b) los hornos distintos no tienen efecto en la vida del 
componente; 

c) el tipo de horno y la temperatura no interactuan. 

14.2 El Departamento de Nutrition Humana y Ali- 
mentos, del Instituto Politecnico y Universidad Estatal 
de Virginia, realizo un estudio sobre la estabilidad de 
la vitamina C en el concentrado de jugo de naranja 
congelado reconstituido, que se almacena en un refri- 
gerador durante un periodo de hasta una semana; su 
ti'tulo era Vitamin C Retention in Reconstituted Fro- 
zen Orange Juice. Se probaron 3 tipos de concentrado 
de jugo de naranja congelado con 3 periodos distintos, 
los cuales se refieren al numero de dfas desde que se 
mezclo el jugo hasta que se probo. Se registraron los 
resultados, en miligramos de acido ascorbico por litro. 
Utilice un nivel de significancia de 0.05 para probar las 
hipotesis de que 

a) no hay diferencia en el contenido de acido ascorbico 
entre las diferentes marcas de concentrado de jugo 
de naranja; 


b) no existe diferencia en el contenido de acido ascorbi- 
co para distintos periodos; 

c) se combinaron las marcas de concentrado de jugo de 
naranja y el numero de dfas hasta que se probo que 
no interactuaban. 

Tiempo (dfas) 


Marca 0 3 7 


Richfood 

52.6 

54.2 

49.4 

49.2 

42.7 

48.8 


49.8 

46.5 

42.8 

53.2 

40.4 

47.6 

Sealed-Sweet 

56.0 

48.0 

48.8 

44.0 

49.2 

44.0 


49.6 

48.4 

44.0 

42.4 

42.0 

43.2 

Minute Maid 

52.5 

52.0 

48.0 

47.0 

48.5 

43.3 


51.8 

53.6 

48.2 

49.6 

45.2 

47.6 

14.3 Se estudiaron 3 

variedades 

de ratas en 

2 am- 

bientes distintos, 

para 

analizar su 

desempeno en una 

prueba de laberinto. Los siguientes 

son los registros del 

error de las 48 ratas: 









Variedad 



Ambiente 

Brillante 

Mezclada 

Lenta 

Libre 

28 

12 

33 

83 

101 

94 


22 

23 

36 

14 

33 

56 


25 

10 

41 

76 

122 

83 


36 

86 

22 

58 

35 

23 

Restringido 

72 

32 

60 

89 

136 

120 


48 

93 

35 

126 

38 

153 


25 

31 

83 

110 

64 

128 


91 

19 

99 

118 

87 

140 


Utilice un nivel de significancia de 0.01 para probar la 
hipotesis de que 

a) no hay diferencia en los registros del error para am- 
bientes diferentes; 

b) no existe diferencia en los registros del error para 
variedades distintas; 

c) los ambientes y las variedades de las ratas no inte- 
ractuan. 

14.4 La fatiga por corrosion de los metales se define 
como la action simultanea de tension cfclica y ataque 
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qufmico sobre una estructura metalica. Una tecnica 
muy utilizada para minimizar el dano de la fatiga por 
corrosion en el aluminio, requiere la aplicacion de un 
recubrimiento protector. En un estudio efectuado por 
el Departamento de Ingenieria Mecanica del Instituto 
Politecnico y Universidad Estatal de Virginia, se utili- 
zaron distintos niveles de humedad relativa: 

Bajo: 20 a 25%. 

Medio: 55 a 60%. 

Alto: 86 a 91%. 

Tambien se emplearon 3 tipos de recubrirnientos: 

No revestido: Sin recubrimiento. 

Anodizado: Recubrimiento de oxido anodico por aci- 
do sulfurico. 

Conversion: Recubrimiento por conversion quimica 
de cromato. 

Los datos de fatiga por corrosion, expresados en miles 
de ciclos hasta que se presenta la falla, se registraron 
como sigue: 

Humedad relativa 


Recubrimiento Baja Media Alta 



361 

469 

314 

522 

1344 

1216 

No revestido 

466 

937 

244 

739 

1027 

1097 


1069 

1357 

261 

134 

1011 

1011 


114 

1032 

322 

471 

78 

466 

Anodizado 

1236 

92 

306 

130 

387 

107 


533 

211 

68 

398 

130 

327 


130 

1482 

252 

874 

586 

524 

Conversion 

841 

529 

105 

755 

402 

751 


1595 

754 

847 

573 

846 

529 


a) Lleve a cabo un analisis de varianza con a = 0.05 para 
probar la significancia de los efectos y de la interac- 
tion principales. 

b) Utilice la prueba de Duncan de rango multiple con 
un nivel de significancia de 0.05, para determinar 
cuales niveles de humedad relativa dan como resul- 
tado danos distintos de fatiga por corrosion. 

14.5 Para determinar cuales musculos necesitan su- 
jetarse a un programa de acondicionamiento para me- 
jorar el rendimiento individual en el servicio tendido 
que se usa en el tenis, el Departamento de Salud, Edu- 
cation Ffsica y Recreation del Instituto Politecnico y 
Universidad Estatal de Virginia realizo un estudio de 
cinco musculos diferentes: 

1: deltoides anterior 4: deltoides medio 

2: pectoral mayor 5: triceps. 

3: deltoides posterior 

los cuales se probaron en 3 sujetos, y el experimento se 
efectuo 3 veces para cada combination de tratamiento. 
Los datos electromiograficos se registraron durante el 
servicio, y se presentan a continuation. Use un nivel de 
0.01 de significancia para probar las hipotesis de que 


a) diferentes sujetos tienen mediciones iguales del elec- 
tromiograma; 

b) musculos diferentes no tienen efecto en las medicio- 
nes del electromiograma; 

c) los sujetos y los tipos de musculo no interactuan. 


Musculo 


Sujeto 

1 

2 

3 

4 

5 

1 

32 

5 

58 

10 

19 


59 

1.5 

61 

10 

20 


38 

2 

66 

14 

23 

2 

63 

10 

64 

45 

43 


60 

9 

78 

61 

61 


50 

7 

78 

71 

42 

3 

43 

41 

26 

63 

61 


54 

43 

29 

46 

85 


47 

42 

23 

55 

95 


14.6 Se realizo un experimento para incrementar la 
adherencia de los productos de caucho. Se elaboraron 
16 productos con el aditivo nuevo, y otros 16 sin este. 
La adherencia que se registro es la siguiente. 


Temperatura (°C) 



50 

60 

70 

80 


2.3 

3.4 

3.8 

3.9 

Con el aditivo 

2.9 

3.7 

3.9 

3.2 


3.1 

3.6 

4.1 

3.0 


3.2 

3.2 

3.8 

2.7 


4.3 

3.8 

3.9 

3.5 

Sin el aditivo 

3.9 

3.8 

4.0 

3.6 


3.9 

3.9 

3.7 

3.8 


4.2 

3.5 

3.6 

3.9 


Haga un analisis de varianza para probar la significancia 
de los efectos y de la interaction principales. 

14.7 Se sabe que la tasa de extraction de cierto po- 
lfmero depende de la temperatura de reaction y de la 
cantidad de catalizador empleada. Se hizo un experi- 
mento en cuatro niveles de temperatura y cinco niveles 
de catalizador, y se registro la tasa de extraction en la 
tabla que sigue: 


Cantidad de catalizador 



0.5% 

0.6% 

0.7% 

0.8% 

0.9% 

50 °C 

38 

45 

57 

59 

57 


41 

47 

59 

61 

58 

60 °C 

44 

56 

70 

73 

61 


43 

57 

69 

72 

58 

70 °C 

44 

56 

70 

73 

61 


47 

60 

67 

61 

59 

80 °C 

49 

62 

70 

62 

53 


47 

65 

55 

69 

58 


Realice un analisis de varianza. Pruebe la significancia 
de los efectos y de la interaction principales. 
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14.8 En Myers y Montgomery (2002) se estudia un 
escenario donde se describe un proceso de laminado por 
prensado. La respuesta es el espesor del material. Los 
factores que podrian influir en este incluyen la cantidad 
de rn'quel (A) y el pH (B). Se diseiio un experimento con 
dos factores. El plan consiste en hacer un diseiio com- 
pletamente aleatorio, en el que las prensas individuales 
se asignen al azar a las combinaciones de factores. En 
el experimento se utilizan tres niveles de pH y dos de 
contenido de rn'quel. Los espesores en cm x 10~ 3 son 
los siguientes: 

Contenido de rn'quel pH 

(gramos) 5 5.5 6 


18 

250 

195 

188 

211 

172 

165 

221 

150 

170 

10 

115 

88 

69 


165 

112 

101 


142 

108 

72 


a ) Haga la tabla del analisis de varianza con pruebas 
tanto para los efectos como para la interaction prin- 
cipales. Muestre los valores P. 

b) Saque conclusiones de ingenieria. /.Que fue lo que 
aprendio usted a partir del analisis de estos datos? 

c) Elabore una grafica que ilustre la presencia o ausen- 
cia de interaction. 

14.9 Un ingeniero esta interesado en el efecto de la 
velocidad de corte y la geometria de la herramienta 
sobre las lioras de vida de una maquina-herramienta. 
Se utilizan dos velocidades de corte y dos geometn'as 
distintas. Se llevan a cabo tres pruebas experimentales 
con cada una de las cuatro combinaciones. Los datos 
son los siguientes: 


Geometria de Velocidad de corte 


la herramienta 

Baja 

Alta 

1 

22 28 20 

34 37 29 

2 

18 15 16 

11 10 10 


a) Realice la tabla del analisis de varianza con pruebas 
sobre los efectos de la interaction y principales. 

b) Haga comentarios sobre el efecto que tiene la inte- 
raction sobre la prueba de la velocidad de corte. 

c) Efectiie pruebas secundarias que permitan al inge- 
niero aprender el impacto verdadero de la velocidad 
de corte. 

d ) Construya una grafica que ilustre el efecto de la in- 
teraction. 

14.10 En un experimento se estudiaron dos factores 
de un proceso de manufactura de un circuito integrado. 
El proposito del experimento es conocer el efecto sobre 
la resistividad de las obleas de silicio. Los factores son la 
dosis del implante (2 niveles) y la position de la caldera 
(3 niveles). El experimento es costoso, por lo que solo 
se hizo una corrida con cada combination. Los datos 
son los siguientes. 


Dosis Position 

1 15J5 148 21.3 

2 27.2 24.9 26.1 

Se supone que no hay interaction entre esos dos fac- 
tores. 

a) Escriba el modelo y explique sus terminos. 

b) Muestre la tabla de analisis de varianza. 

c) Explique los 2 grados de libertad del “error”. 

d) Use una prueba de Tukey para hacer pruebas de 
comparaciones multiples sobre la position de la cal- 
dera. Explique que es lo que muestran los resul- 
tados. 

14.11 Se realizo un estudio para determinar la in- 
fluencia de dos factores, el metodo de analisis y el labo- 
ratory que hace el analisis, sobre el nivel de contenido 
de azufre del carbon. Se asignaron al azar 28 especf- 
menes de carbon a 28 combinaciones de factores, la 
estructura de las unidades experimentales representada 
por las combinaciones de siete laboratorios y dos me- 
todos de analisis con dos especfmenes por combination 
de factores. Los datos se muestran a continuation: la 
respuesta se expresa en porcentaje de azufre. 

Metodo 


Laboratorio 1 2 


1 

0.109 

0.105 

0.105 

0.108 

2 

0.129 

0.122 

0.127 

0.124 

3 

0.115 

0.112 

0.109 

0.111 

4 

0.108 

0.108 

0.117 

0.118 

5 

0.097 

0.096 

0.110 

0.097 

6 

0.114 

0.119 

0.116 

0.122 

7 

0.155 

0.145 

0.164 

0.160 


Los datos se tomaron de Taguchi, G. “Signal to Noise 
Ratio and Its Applications to Testing Material”, Re- 
ports of Statistical Application Research, Union of Japa- 
nese Scientists and Engineers, vol. 18, num. 4, 1971. 

a) Haga un analisis de varianza y muestre los resulta- 
dos en la tabla correspondiente. 

b) ^Es significativa la interaction? Si lo es, analice lo 
que significa para el cientifico. En sus conclusiones 
utilice un valor P. 

c) ^Son estadisticamente significativos los efectos prin- 
cipales individuales, el laboratorio y el metodo de 
analisis? Analice lo que se haya aprendido y base 
su respuesta en el contexto de cualquier interaction 
significativa. 

d) Haga una grafica que ilustre el efecto de la interac- 
tion. 

e) Efectue una prueba para comparar los metodos 1 y 
2 en el laboratorio 1, y haga lo mismo para el labo- 
ratorio 7. Comente lo que ilustran tales resultados. 

14.12 En un experimento efectuado en el departa- 
mento de ingenieria civil del Tecnologico de Virginia, 
se observo el crecimiento que cierto tipo de alga tem'a 
en el agua, como funcion del tiempo y la dosis de cobre 
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que se agregaba al lfquido. Los datos se presentan a 
continuation. La respuesta se expresa en unidades de 
algas. 


Tiempo en dfas 


Cobre 

5 

12 

18 

1 

0.30 

0.37 

0.25 


0.34 

0.36 

0.23 


0.32 

0.35 

0.24 

2 

0.24 

0.30 

0.27 


0.23 

0.32 

0.25 


0.22 

0.31 

0.25 

3 

0.20 

0.30 

0.27 


0.28 

0.31 

0.29 


0.24 

0.30 

0.25 


o) Haga un analisis de varianza y muestre la tabla co- 
rrespondiente. 

b) Comente acerca de si los datos son suficientes para 
mostrar un efecto del tiempo sobre la concentration 
de algas. 

c) Haga lo mismo para el contenido de cobre. ^E1 con- 
tenido de cobre tiene un efecto sobre la concentra- 
tion de algas? 

d ) Comente los resultados de la prueba para la interac- 
tion. i,Como se ve influido el efecto del contenido de 
cobre por el tiempo? 

14.13 En Myers, Classical and Modem Regression with 
Applications, Duxbury Classic Series, 2a. ed., 1990, se 
describe un experimento en el cual la Agenda de Pro- 
tection Ambiental busca determinar el efecto que tienen 
dos metodos de tratamiento del agua sobre la absor- 
cion del magnesio. Se mide los niveles de magnesio, en 
gramos por centi'metro cubico (cc), y se incorpora dos 
niveles diferentes de tiempo al experimento. Los datos 
son los siguientes: 


Tratamiento 


Tiempo (horas) 


1 



2 


1 

2.19 

2.15 

2.16 

2.03 

2.01 

2.04 

2 

2.01 

2.03 

2.04 

1.88 

1.86 

1.91 


a) Haga una grafica de la interaction. ^Cual es su ini- 
presion? 

b) Efectue un analisis de varianza y pruebas para los 
efectos y la interaction principales. 

c) Mencione los descubrimientos cienti'ficos acerca de 
como influyen el tiempo y el tratamiento en la ab- 
sorcion del magnesio. 

d) Ajuste el modelo adecuado de regresion con el trata- 
miento como variable categorica. En el modelo inclu- 
ya la interaction. 

e) ^La interaction es significativa en el modelo de re- 
gresion? 

14.14 Considere los datos del ejercicio 14.12 y res- 

ponda las siguientes preguntas. 

a) Tanto el factor de cobre como el tiempo son de na- 
turaleza cuantitativa. Como resultado, podri'a ser de 
interes un modelo de regresion. Describa cual podri'a 
ser un modelo adecuado con x\ = contenido de co- 
bre y X 2 = tiempo. Ajuste el modelo a los datos, 
mostrando los coeficientes de regresion y haga una 
prueba t sobre cada uno. 

b) Ajuste el modelo 

Y = Pa + ( 3 \x\ + fox 2 + P12X1X2 
+ fh±x\ + P22 x\ + e, 

y comparelo con el que eligio en el inciso a). ^Cual 
es mas apropiado? Como criterio utilice f? a j U . 


14.4 Experimentos con tres factores 

En esta section consideramos un experimento con tres factores, A, B y C, en los 
niveles a, b y c, respectivamente, en un diseno completamente aleatorio. Suponga 
de nuevo que se tienen n observaciones para cada una de las abc combinaciones de 
tratamientos. Debemos proceder a realizar las pruebas de significancia para los tres 
efectos principales y la interaction implicada. Se espera que el lector sea capaz de 
usar la description dada para generalizar el analisis de k > 3 factores. 


Modelo para el 
experimento con 
tres factores 


El modelo para el experimento con tres factores es 

2 Jijki = M + + Pj + Ik + ( a(3)ij + (ay) ik + (P'1) ok + (otPy)ijk + tijkh 


i = 1, 2, . . . , o; j = 1, 2, . . . , &; k = 1, 2, . . . , c; y l = 1, 2, . . . , n, 

donde or*, /3j y yu son los efectos principales; {a/3)ij, ( cry)ifc y (/?7 )jk son los efectos de la 
interaction de dos factores, que tienen la misma interpret acion que en el experimento 
con dos factores. El termino (a(3y)ijk se denomina el efecto de la interaction de 
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tres factores, y representa la no aditividad de las ( a/3)ij sobre los diferentes niveles 
del factor C. Igual que antes, la suma de todos los efectos principales es igual a cero, 
y la suma sobre cualesquiera de los subi'ndices de los efectos de la interaction entre 
dos y tres factores es igual a cero. En muchas situaciones experiment ales tales interac- 
ciones de orden superior son insignificantes, y sus medias cuadraticas tan solo rcflcjan 
variation al azar; pero se debe hacer el analisis en su detalle mas general. 

Otra vez, con la finalidad de que se realicen pruebas validas de significancia, 
debe suponerse que los errores son valores de variables aleatorias independientes con 
distribution normal, cada una con media igual a cero y varianza connin a 2 . 

La filosofi'a general con respecto al analisis es la misma que la que se estudio 
para los experimentos de uno y dos factores. Se hace la partition de la suma de los 
cuadrados en ocho terminos, donde cada uno representa una fuente de variation de 
los que se obtiene estimadores independientes de a 2 cuanto todos los efectos princi- 
pales y de la interaction son iguales a cero. Si los efectos de cualquier factor dado o 
interaction no son iguales a cero, entonces la media cuadratica estimara la varianza 
del error mas un componente debido al efecto sistematico en cuestion. 


Suma de cuadrados 

a 


para un 

ssa = ben 'y~' j (yj.. 

. - y....) 

experimentos de 

i= 1 


tres factores 

b 



ssb = acn 

3=1 



c 

ssc = abn ^^(y..k. 

-y....) 2 


SS(AB) = cn 

* 3 

SS(AC) = bn 

i k 

SS(BC) =an'^2'^2(y. jk . - y.p. -y.. k . + y....) 2 


k= 1 j k 

SS(ABC) = n'^2'^2'^2(y l jk. Vij.. Ui.k. ~ y.jk. + V%... + + y..k. !!.... ) 2 

i j k 

sst = Y, - y f sse = _ ^.) 2 

i j k l i j k l 


Aunque se hace enfasis en la interpretation de la salida por computadora con 
comentarios de esta section, en vez de enfrascarnos con calculos laboriosos de sumas 
de cuadrados, se ofrece lo siguiente como la suma de cuadrados para los tres efectos 
principales y de las interacciones. Observe la evidente ampliation del problema de 
dos factores a uno de tres. 

Los promedios en las formulas se definen como sigue: 
y. .. = promedio de todas las abcn observaciones, 

Vi... = promedio de las observaciones para el *-esimo nivel del factor A, 

y,j_ = promedio de las observaciones para el j-esimo nivel del factor B, 

y..k. = promedio de las observaciones para el fc-esimo nivel del factor ( 7 , 

Vij.. = promedio de las observaciones para el i-esimo nivel de A y el j-esimo nivel de B, 

Vi.k. = promedio de las observaciones para el i-esimo nivel de A y el k-e simo nivel de C, 

y.jk. = promedio de las observaciones para el j-esimo nivel de B y el /c-esimo nivel de C, 

y ijk. = promedio de las observaciones para la (ijk)-e sima combination de tratamientos. 

Los calculos en la tabla del analisis de varianza para un problema de tres factores con 
n corridas de repetition en cada combination de factores, se resumen en la tabla 14.7. 
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Tabla 14.7: anova para el experimento de tres factores con n repeticiones 


Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Cuadrado de la 
media cuadratica 

/ 

calculada 

Efecto principal: 

A 

SSA 

a — 1 

q 2 

S 1 

/l — 32 

B 

SSB 

b - 1 

s 2 

q 2 

/ 2= > 

C 

SSC 

c — 1 

s 2 

s 3 

f 3 = % 

Interaction de dos factores: 

AB 

SS(AB) 

(a — 1)(6 — 1) 

c 2 

s 4 

/4 = ff 

AC 

SS(AC) 

(a-l)(c— 1) 

s 2 

s 5 

/s = ^ 

BC 

SS(BC) 

( 6 _1)( C _1) 

q 2 

s 6 

/e = j 2 

Interaction de tres factores: 

ABC 

Error 

Total 

SS(ABC) 

SSE 

SST 

(a — 1)(6- l)(c- 1) 
abc ( n — 1) 
aben — 1 

s 2 

s 7 

s 2 

/7 = J 


Para el experimento de tres factores con una sola corrida experimental por com- 
bination, debe usarse el analisis de la tabla 14.7 con n = 1 y el empleo de la suma 
de cuadrados de la interaction ABC para sse. En este caso, suponemos que los efectos de 
la interaction ( afry)ijk son todos iguales a cero, de modo que 


E 


SS(ABC) 


(a - l)(b — l)(c — 1) 


= a 2 + 


n 


(a-l)(&-l)(c-l)£^£ 




Es decir, SS(ABC) representa la variation de que solo se debe al error experimental. 
Su media cuadratica proporciona asi un estimador insesgado de la varianza del error. 
Con n = 1 y SSE = SS(ABC ), la suma de los errores al cuadrado se obtiene al restar 
a la suma total de cuadrados, la suma de cuadrados de los efectos principales y las 
interactions de dos factores. 


Ejemplo 14.4:1 En la production de un material en particular hay tres variables de interes: A, el 
efecto del operador (tres operadores): B, el catalizador utilizado en el experimento 
(tres catalizadores); y C, el tiempo de lavado del producto despues del proceso de 
enfriamiento (15 minutos y 20 minutos). Con cada combination de factores se hicie- 
ron tres corridas. Se pensaba que deberian estudiarse todas las interacciones entre 
los factores. En la tabla 14.8 se presentan las salidas codificadas. Ejecute un analisis 
de varianza para probar los efectos que son significativos. 

Solucion: La tabla 14.9 muestra el analisis de varianza de los datos. Ninguna de las interaccio- 
nes muestra un efecto significativo en el nivel a. = 0.05. Sin embargo, el valor Ppara 
BC es 0.0610; por ello, debe ignorarse. Los efectos de los operadores y el catalizador 
son significativos, en tanto que el del tiempo de lavado no lo es. 
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Tabla 14.8: Datos para el ejemplo 14.4 


Tiempo de lavado, C 


A (operador) 

15 minutos 

B (catalizador) 

20 minutos 

B (catalizador) 

1 

2 

3 

1 

2 

3 

1 

10.7 

10.3 

11.2 

10.9 

10.5 

12.2 


10.8 

10.2 

11.6 

12.1 

11.1 

11.7 


11.3 

10.5 

12.0 

11.5 

10.3 

11.0 

2 

11.4 

10.2 

10.7 

9.8 

12.6 

10.8 


11.8 

10.9 

10.5 

11.3 

7.5 

10.2 


11.5 

10.5 

10.2 

10.9 

9.9 

11.5 

3 

13.6 

12.0 

11.1 

10.7 

10.2 

11.9 


14.1 

11.6 

11.0 

11.7 

11.5 

11.6 


14.5 

11.5 

11.5 

12.7 

10.9 

12.2 


Tabla 14.9: anova para un experimento de tres factores en un diseno aleatorio por completo 


Fuente 

df 

Suma de cuadrados 

Media cuadratica 

Valor F 

Valor P 

A 

2 

13.98 

6.99 

11.64 

0.0001 

B 

2 

10.18 

5.09 

8.48 

0.0010 

AB 

4 

4.77 

1.19 

1.99 

0.1172 

C 

1 

1.19 

1.19 

1.97 

0.1686 

AC 

2 

2.91 

1.46 

2.43 

0.1027 

BC 

2 

3.63 

1.82 

3.03 

0.0610 

ABC 

4 

4.91 

1.23 

2.04 

0.1089 

Error 

36 

21.61 

0.60 



Total 

53 

63.19 





Efecto de la interaccion BC 

Deben hacerse mas analisis respecto del ejemplo 14.4, en particular acerca del efecto 
que la interaccion entre el catalizador y el tiempo de lavado tienen sobre la prueba 
del efecto principal del tiempo de lavado (factor C). Recuerde nuestro analisis de la 
section 14.2. Se dieron ilustraciones de la manera en que la presencia de la interac- 
cion podria cambiar la interpretation que se hizo de los efectos principales. En el 
ejemplo 14.4, la interaccion BC es significativa al nivel de 0.06, aproximadamente. 
No obstante, suponga que se observa una tabla de medias de dos factores, como la 
14.10. 

Queda claro por que se encontro que el tiempo de lavado no era significativo. 
Un analista poco cuidadoso se quedarfa con la impresion de que el tiempo de lavado 
podri'a eliminarse de cualquier estudio futuro donde se midiera la salida. Sin embar- 
go, es notorio como cambia el efecto del tiempo de lavado de uno negativo para el 
primer catalizador, a lo que parece ser otro positivo para el tercer catalizador. Si tan 
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Tabla 14.10: Tabla de medias de dos factores para el ejemplo 14.4 


Catalizador, B 

Tiempo de lavado C 

15 min 

20 min 

1 

12.19 

11.29 

2 

10.86 

10.50 

3 

11.09 

11.46 

Medias 

11.38 

11.08 


solo nos centraramos en los datos para el catalizador 1, una comparacion simple entre 
las medias de los dos tiempos de lavado produciria un estadistico t sencillo: 


t 


12.19-11.29 

\/0-6(2/9) 


que es significativo a un nivel menor que 0.02. Asi, bien puede ignorarse un impor- 
tante efecto negativo del tiempo de lavado para el catalizador 1, si el analista hace la 
interpretation amplia incorrecta de la razon F insignificante del tiempo de lavado. 


Agrupamiento en modelos multifactoriales 

Se ha descrito el modelo de tres factores y su analisis, en la forma mas general, con la 
inclusion en el modelo de todas las interacciones posibles. Por supuesto, hay muchas 
situaciones en las que a priori se conoce que el modelo no deberia contener ciertas 
interacciones. Puede sacarse ventaja de este conocimiento al combinar o agrupar 
las sumas de cuadrados correspondientes a interacciones despreciables con la suma 
de los errores al cuadrado, para formar un nuevo estimador de cr 2 con un nrimero 
mas grande de grados de libertad. Por ejemplo, en un experimento de metalurgia 
disenado para estudiar el efecto sobre el espesor de la pelicula de tres variables im- 
portantes del proceso, suponga que se conoce que el factor A, la concentration de 
acido, no interactua con los factores B y C. Las sumas de cuadrados SSA, ssb , ssc y 
SS(BC) se calculan usando los metodos descritos en un apartado anterior de esta 
section. Todas las medias cuadraticas para los efectos restantes ahora estimaran la 
varianza del error <r 2 . Por lo tanto, el nuevo error cuadratico medio se forma 
agrupando SS(AB), SS(AC), SS(ABC) y SSE, junto con los grados de libertad 
correspondientes. El denominador que resulta para las pruebas de significancia es, 
entonces, el error cuadratico medio dado por 

2 SS(AB) + SS(AC) + SS(ABC) + sse 

(a — l)(b — 1) + (a — l)(c — 1) + (a — 1)(6 — l)(c — 1) + abc(n — 1) 

Por supuesto, al calcular se obtiene por sustraccion la suma agrupada de cuadrados 
y los grados de libertad agrupados, una vez que se calculan sst y las sumas de cua- 
drados para los efectos existentes. La tabla del analisis de varianza adoptaria asi la 
forma de la tabla 14.11. 

Experimentos factoriales en bloques 

En este capitulo se ha supuesto que el diseno experimental utilizado es uno alea- 
torio por complete. Al interpretar los niveles del factor A en la tabla 14.11, como 
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Tabla 14.11: anova sin interaction del factor A 


Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Media 

cuadratica 

/ 

calculada 

Efecto principal: 

A 

SSA 

a — 1 


/i = £ 

B 

SSB 

b - 1 

4 

/2 = S 

C 

SSC 

c — 1 

4 

II 

+1?,, 

Interaction de dos factores: 

BC 

Error 

Total 

SS(BC) 

SSE 

SST 

(6-l)(c-l) 

Resta 

abcn — 1 

s 4 

S 2 

/4 = £ 


bloques diferentes, entonces se tiene el procedimiento del analisis de varianza 
para un experimento de dos factores en un diseno de bloques aleatorios. Por ejemplo, 
si se interpretan los operadores del ejemplo 14.4 como bloques, y se supone que no 
hay interaction entre estos y los otros dos factores, el analisis de varianza adopta la 
forma de la tabla 14.12, en vez de la tabla 14.9. El lector puede verificar que el error 
cuadratico medio tambien es 


4.77 + 2.91 + 4.91 + 21.61 
4 + 2 + 4 + 36 


0.74, 


lo cual demuestra el agrupamiento de las sumas de los cuadrados para los efectos 
de la interaction inexistente. Observe que el factor B 1 el catalizador, tiene un efecto 
significativo sobre el producto. 


Tabla 14.12: anova para un experimento de dos factores en un diseno de bloques aleatorios 


Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Media 

cuadratica 

f 

calculada 

Valor P 

Bloques 

13.98 

2 

6.99 



Efecto principal: 






B 

10.18 

2 

5.09 

6.88 

0.0024 

C 

1.18 

1 

1.18 

1.59 

0.2130 

Interaction de dos factores: 






BC 

3.64 

2 

1.82 

2.46 

0.0966 

Error 

31.21 

46 

0.74 



Total 

63.19 

53 





Ejemplo 14.5:1 Se realizo un experimento para determinar el efecto de la temperatura, la presion y 
la intensidad de agitation sobre la tasa de filtration del producto. Esto se hizo en 
una planta piloto. El experimento se corrio en dos niveles de cada factor. Ademas, se 
decidio que debi'an utilizarse dos lotes de materia prima, los cuales fueron tratados 
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Tabla 14.13: Datos para el ejemplo 14.5 

Lote 1 

Temp. 

L 

H 

Tasa de agitation baja 

Temp. 

L 

H 

Tasa de agitation alta 

Presion L 

43 

64 

Presion H 

49 

68 

Presion L 

44 

97 

Presion H 

47 

102 

Lote 2 


Tasa de agitation baja 


Tasa de agitation alta 

Temp. 

Presion L 

Presion H 

Temp. 

Presion L 

Presion H 

L 

49 

57 

L 

51 

55 

H 

70 

76 

H 

103 

106 


como bloques. Se hicieron ocho corridas experimentales en orden aleatorio para cada 
lote de materia prima. Se piensa que todas las interacciones de los dos factores son 
de interes. No se supone que haya interacciones con los lotes. Los clatos aparecen en 
la tabla 14.13. Las letras “L” y “H” significan niveles bajo y alto, respectivamente. 
La tasa de filtracion se expresa en galones por hora. 


Solucion: 


а) Muestre la tabla anova completa. Agrupe en el error todas las “interacciones” 
con los bloques. 

б) ^Cuales interacciones parecen ser significativas? 

c) Construya graficas que revelen las interacciones significativas e interpretelas. 
Explique lo que significa la grafica para el ingeniero. 

a) En la figura 14.7 se presenta la salida de SAS. 


b ) Como se aprecia en la figura 14.7, la interaction de la temperatura con la tasa 
de agitation ( strate ) parece ser muy significativa. Asimismo, la interaction de la 
presion con la tasa de agitation tambien parece ser significativa. A proposito, si 
se fueran a hacer mas agrupamientos al combinar las interacciones insignifican- 
tes con el error, las conclusiones serfan las mismas, y el valor P para la interac- 
tion de la presion con la tasa de agitation se volverfa mayor: serfa de 0.0517. 


c) Los efectos principales tanto para la tasa de agitation y la temperatura son 
muy significativos, como se aprecia en la figura 14.7. El estudio de la grafica de 
interaction de la figura 14.8a) muestra que el efecto de la tasa de agitation 
depende del nivel de la temperatura. Con el nivel bajo, el efecto de la tasa de 
agitation es despreciable; mientras que con el nivel alto la tasa de agitation 
tiene un efecto positivo fuerte sobre la tasa media de filtracion. Para la figura 
14.86), la interaction entre la presion y la tasa de agitation, aunque no sea tan 
pronunciada como la de la figura 14.8a), aun muestra una inconsistencia ligera 
del efecto de la tasa de agitation a traves de la presion. 
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Source 

DF 

Type III SS 

Mean Square 

F Value 

Pr > F 

batch 

1 

175.562500 

175.562500 

177.14 

<.0001 

pressure 

1 

95.062500 

95.062500 

95.92 

<.0001 

temp 

1 

5292.562500 

5292.562500 

5340.24 

<.0001 

pressure*temp 

1 

0.562500 

0.562500 

0.57 

0.4758 

strate 

1 

1040.062500 

1040.062500 

1049.43 

<.0001 

pressure*strate 

1 

5.062500 

5.062500 

5.11 

0.0583 

temp*strate 

1 

1072.562500 

1072.562500 

1082.23 

<.0001 

pressure*temp*strate 

1 

1.562500 

1.562500 

1.58 

0.2495 

Error 

7 

6.937500 

0.991071 



Corrected Total 

15 

7689.937500 





Figura 14.7: anova para el ejemplo 14.5, interaccion del lote agrupado con el error. 



a) Temperatura contra tasa de agitation. 



Figura 14.8: Graficas de interaccion para el ejemplo 14.5. 


Ej ercicios 


14.15 Los datos siguientes se tomaron de un estudio 
sobre mediciones. Se hizo un experimento usando 3 fac- 
tores, A, B y C, todos efectos fijos. 

Cl C2 c 3 

B\ B 2 B 3 B\ B 2 B 3 B\ B 2 B 3 

A\ 15.0 14.8 15.9 16.8 14.2 13.2 15.8 15.5 19.2 

18.5 13.6 14.8 15.4 12.9 11.6 14.3 13.7 13.5 

22.1 12.2 13.6 14.3 13.0 10.1 13.0 12.6 11.1 

A 2 11.3 17.2 16.1 18.9 15.4 12.4 12.7 17.3 7.8 

14.6 15.5 14.7 17.3 17.0 13.6 14.2 15.8 11.5 

18.2 14.2 13.4 16.1 18.6 15.2 15.9 14.6 12.2 

a) Haga pruebas de significancia sobre todas las interac- 
ciones con el nivel de a = 0.05. 


b ) Realice pruebas de significancia sobre los efectos 
principales con el nivel de a = 0.05. 

c) De una explication de la forma en que una interac- 
cion significativa enmascara el efecto del factor C. 

14.16 Considere una situation experimental que im- 
plique los factores A, B y C, en los que se adopta un 
modelo de tres factores de efectos fijos, de la forma 

Vijkl = n + on -T (3j + 7 ^ + {P^)jk + epfci- 

Se considera que todas las demas interacciones no exis- 
ten o son despreciables. Los datos se presentan ense- 
guida. 

a) Haga una prueba de significancia sobre la interac- 
cion BC con el nivel de a = 0.05. 
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b) Desarrolle pruebas de significancia sobre los efectos 
principales A, B y C, usando un error cuadratico 
medio agrupado, con un nivel a = 0.05. 




B 1 



b 2 



Ci 

Ci 

c 3 

Ci 

c 2 

c 3 

An 

4.0 

3.4 

3.9 

4.4 

3.1 

3.1 


4.9 

4.1 

4.3 

3.4 

3.5 

3.7 

A 2 I 

3.6 

2.8 

3.1 

2.7 

2.9 

3.7 


3.9 

3.2 

3.5 

3.0 

3.2 

4.2 

As: 

4.8 

3.3 

3.6 

3.6 

2.9 

2.9 


3.7 

3.8 

4.2 

3.8 

3.3 

3.5 

A 4 : 

3.6 

3.2 

3.2 

2.2 

2.9 

3.6 


3.9 

2.8 

3.4 

3.5 

3.2 

4.3 

La fatiga 

por 

corrosion de 

los : 

metales 


definido como la action simultanea de tension ciclica 
y ataque qufmico sobre una estructura metalica. En 
el estudio Effect of Humidity and Several Surface Coa- 
tings on the Fatigue Life of 202f-T351 Aluminum Alloy, 
realizado por el Departamento de Ingenieria Mecanica 
del Instituto Politecnico y Universidad Estatal de Vir- 
ginia, se utilizo una tecnica que requeria la aplicacion 
de un recubrimiento protector de cromato, con la fi- 
nalidad de minimizar el dano de la fatiga por corro- 
sion en el aluminio. En la investigation se emplearon 3 
factores con 5 repeticiones para cada combination de 
tratamientos: recubrimiento, en 2 niveles, y humedad 
y esfuerzo cortante, ambos con 3 niveles. Los datos de 
fatiga, expresados en miles de ciclos antes del fallo, se 
presentan a continuation. 

a) Realice un analisis de varianza con a = 0.01 para 
probar la significancia de los efectos principales y de 
interaction. 

b ) Haga una recomendacion para las combinaciones de 
los 3 factores que harfan que sea bajo el dano por 
fatiga. 


Recubri- 

miento 

Humedad 

Esfuerzo constante 
(psi) 

13000 17000 20000 


Bajo: 

4580 

5252 

361 


(20-25% RH) 

10126 

897 

466 

Sin recu- 


1341 

1465 

1069 

brimiento 


6414 

2694 

469 



3549 

1017 

937 


Medio: 

2858 

799 

314 


(50-60% RH) 

8829 

3471 

244 



10914 

685 

261 



4067 

810 

522 



2595 

3409 

739 


Alto: 

6489 

1862 

1344 


(86-91% RH) 

5248 

2710 

1027 



6816 

2632 

663 



5860 

2131 

1216 



5901 

2470 

1097 


Esfuerzo constante 


Recubri- 

miento 

Humedad 

13000 

(psi) 

17000 

20000 


Bajo: 

5395 

4035 

130 


(20-25% RH) 

2768 

2022 

841 

Cromado 


1821 

914 

1595 



3604 

2036 

1482 



4106 

3524 

529 


Medio: 

4833 

1847 

252 


(50-60% RH) 

7414 

1684 

105 



10022 

3042 

847 



7463 

4482 

874 



21906 

996 

755 


Alto: 

3287 

1319 

586 


(86-91% RH) 

5200 

929 

402 



5493 

1263 

846 



4145 

2236 

524 



3336 

1392 

751 


14.18 El metodo de fluorescencia por rayos X es una 
herramienta analitica importante para determinar la 
concentration de material en los propulsores solidos 
para misiles. En el articulo An X-ray Fluorescence Me- 
thod for Analyzing Polybutadiene Acrylic Acid ( pbaa ) 
Propellants, Quarterly Report, RK-TR-62-1, Army Ordi- 
nance Missile Command (1962), se afirma que el pro- 
ceso de mezcla del propulsor y el tiempo de analisis 
influyen en la homogeneidad del material y, por ello, 
en la exactitud de las mediciones de la intensidad de 
los rayos X. Se hizo un experimento con 3 factores: A, 
las condiciones de mezcla (cuatro niveles); B, el tiem- 
po de analisis (dos niveles); y C, el metodo de carga 
del propulsor en los recipientes para tomar muestras 
(temperatura elevada y ambiental). Se obtuvieron los 
datos siguientes, que representan el analisis en peso 
porcentual del perclorato de amoniaco en un propulsor 
dado. 


Metodo de carga, C 


Caliente 

Temp, ambiente 

B 

B 


A 

1 

2 

1 

2 

1 

38.62 

38.45 

39.82 

39.82 


37.20 

38.64 

39.15 

40.26 


38.02 

38.75 

39.78 

39.72 

2 

37.67 

37.81 

39.53 

39.56 


37.57 

37.75 

39.76 

39.25 


37.85 

37.91 

39.90 

39.04 

3 

37.51 

37.21 

39.34 

39.74 


37.74 

37.42 

39.60 

39.49 


37.58 

37.79 

39.62 

39.45 

4 

37.52 

37.60 

40.09 

39.36 


37.15 

37.55 

39.63 

39.38 


37.51 

37.91 

39.67 

39.00 

Lleve a 

cabo un 

analisis de varianza 

con a = 


con la finalidad de probar la significancia de los efec- 
tos principales y de interaction. 
b) Analice la influencia de los tres factores sobre el 
peso porcentual del perclorato de amoniaco. 


Ejercicios 
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Introduzca en su analisis el papel de cualquier interac- 
tion significativa. 

14.19 Las copiadoras electronicas funcionan adhi- 
riendo tinta negra al papel mediante electricidad esta- 
tica. La etapa final del proceso de copiado comprende 
el calentamiento y adhesion de la tinta sobre el papel. 
La potencia de la adhesion durante este proceso final 
determina la calidad de la copia. Es posible que la tem- 
peratura, estado superficial de la adhesion en el rodi- 
llo y la dureza del rodillo de la prensa, influyan en la 
potencia de la adhesion de la copiadora. Se hizo un 
experimento con tratamientos, que consistfan en una 
combination de estos tres factores en cada uno de tres 
niveles. Los datos siguientes muestran la potencia de 
la adhesion para cada combination de tratamientos. 
Lleve a cabo un analisis de varianza con a = 0.05 para 
probar la significance de los efectos principales y de la 
interaction. 


Estado 
superficial 
de la 


adhesion Dureza del rodillo 

en e l de la prensa 

rodillo 20 40 60 

Temp. Suave: 0.52 0.44 
baia 0.57 0.53 

0.54 0.52 
0.65 0.56 

0.60 0.55 
0.78 0.68 

Media: 0.64 0.59 

0.58 0.64 

0.79 0.73 
0.79 0.78 

0.49 0.48 
0.74 0.50 

Dura: 0.67 0.77 

0.74 0.65 

0.58 0.68 
0.57 0.59 

0.55 0.65 
0.57 0.58 

Temp. Suave: 0.46 0.40 
media 0.58 0.37 

0.31 0.49 
0.48 0.66 

0.56 0.42 
0.49 0.49 

Media: 0.60 0.43 

0.62 0.61 

0.66 0.57 
0.72 0.56 

0.64 0.54 
0.74 0.56 

Dura: 0.53 0.65 

0.66 0.56 

0.53 0.45 
0.59 0.47 

0.56 0.66 
0.71 0.67 

Temp. Suave: 0.52 0.44 
alta 0.57 0.53 

0.54 0.52 
0.65 0.56 

0.65 0.49 
0.65 0.52 

Media: 0.53 0.65 

0.66 0.56 

0.53 0.45 
0.59 0.47 

0.49 0.48 
0.74 0.50 

Dura: 0.43 0.43 

0.47 0.44 

0.48 0.31 
0.43 0.27 

0.55 0.65 
0.57 0.58 


14.20 Para un estudio de la dureza de los empastes 
dentales de oro, se eligieron cinco dentistas al azar y 
se les asigno a combinaciones de tres metodos de con- 
densation y dos tipos de oro. Se midio la dureza. [vease 
Hoaglin, Mosteller y Tukey (1991).] Los datos se pre- 
sentan a continuation. Haga que los dentistas jueguen 
el papel de bloques. 

a) Proponga el modelo adecuado con las suposiciones. 

b) ^Hay interaction significativa entre el metodo de con- 
densation y el tipo de material de empaste de oro? 

c) ^Hay un metodo de condensation que parezca me- 
jor? Explique su respuesta. 


Dentista 


Tipo 


bloque 

Metodo 

Lamina dorada 

Goldent 

1 

1 

792 

824 


2 

772 

772 


3 

782 

803 

2 

1 

803 

803 


2 

752 

772 


3 

715 

707 

3 

1 

715 

724 


2 

792 

715 


3 

762 

606 

4 

1 

673 

946 


2 

657 

743 


3 

690 

245 

5 

1 

634 

715 


2 

649 

724 


3 

724 

627 


14.21 Considere combinaciones de tres factores en 
el retiro de la suciedad de cargas estandar de lavande- 
ria. El primer factor es la marca del detergente: X, Y 
o Z. El segundo factor es el tipo de detergente: lfquido o 
en polvo. El tercer factor es la temperatura del agua, 
caliente o tibia. El experimento se repitio tres veces. La 
respuesta esta expresada en la remocion porcentual de 
la suciedad. Los datos son los siguientes: 


Marca 

Tipo 

Temperatura 




X 

En polvo 

Caliente 

85 

88 

80 



Tibia 

82 

83 

85 


Lfquido 

Caliente 

78 

75 

72 



Tibia 

75 

75 

73 

Y 

En polvo 

Caliente 

90 

92 

92 



Tibia 

88 

86 

88 


Lfquido 

Caliente 

78 

76 

70 



Tibia 

76 

77 

76 

Z 

En polvo 

Caliente 

85 

87 

88 



Tibia 

76 

74 

78 


Lfquido 

Caliente 

60 

70 

68 



Tibia 

55 

57 

54 


a) ^Existen efectos significativos de la interaction, con 
el nivel de a = 0.05? 

b) ^Hay diferencias significativas entre las tres marcas 
del detergente? 

c) ^Cual combination de factores preferirfa utilizar? 


14.22 Un cientffico recaba datos experimentales so- 
bre el radio de un grano de combustible propulsor, y, 
como funcion de la temperatura del polvo, la tasa de 
extrusion y la temperatura del molde. Los tres factores 
del experimento son los siguientes: 
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Temp, del polvo 



Temp, del molde 

Temp, del molde 


150 

190 

Tasa 

220 250 

220 250 

12 

82 124 

88 129 

24 

114 157 

121 164 


No se dispone de recursos para hacer experimentos re- 
petidos con las ocho combinaciones de factores. Se cree 
que la tasa de extrusion no interactua con la tempera- 
tura del molde, y que la interaccion entre los tres facto- 
res es despreciable. Asf, esas dos interacciones pueden 
agruparse para producir un termino de “error” de dos 
grados de libertad. 

a) Haga un analisis de varianza que incluya los tres 
efectos principales e interacciones de dos factores. 
Determine cuales efectos influyen en el radio del gra- 
no de combustible. 

b) Construya graficas de interaccion para la tempera- 
tura del polvo usando la temperatura del molde y 
del polvo, mediante las interacciones de la tasa de 
extrusion. 

c) Comente acerca de la consistencia entre la aparien- 
cia de las graficas de interaccion y las pruebas sobre 
las dos interacciones en el anova. 

14.23 En el libro Design of Experiments for Quality 
Improvement , publicado por la Asociacion Japonesa de 
Estandares (1989), se reporta un estudio sobre la extrac- 


tion de polietileno por medio de un solvente, y la ma- 
nera en que la cantidad de gel (proportion) se ve influi- 
da por tres factores: el tipo de solvente, la temperatura de 
extraction y el tiempo de extraction. Se diseno un expe- 
rimento factorial y se obtuvieron los datos siguientes, 
expresados en proportion de gel. 


Tiempo 

Solvente Temp. 4 

8 

16 

. 120 94.0, 94.0 

Etanol ’ 

80 95.3, 95.1 

93.8, 94.2 

94.9, 95.3 

91.1, 90.5 
92.5, 92.4 

„ . 120 94.6, 94.5 

lolueno 

80 95.4, 95.4 

93.6, 94.1 

95.6, 96.0 

91.1, 91.0 

92.1, 92.1 


a) Haga un analisis de varianza y determine cuales fac- 
tores e interacciones influyen en la proportion de 
gel. 

b) Construya una grafica de la interaccion entre dos 
factores cualesquiera que sea significativa. Ademas, 
explique que conclusion podrfa obtenerse de la pre- 
sencia de la interaccion. 

c) Haga una grafica de probabilidad normal de los re- 
siduos y comentela. 

14.24 Considere el conjunto de datos del ejercicio 

14.19. 

a) Construya una grafica de la interaccion de dos fac- 
tores cualesquiera que sea significativa. 

b) Haga una grafica de probabilidad normal de resi- 
duos y comentela. 


14.5 Experimentos factoriales de modelos II y III 


En un experimento de dos factores con efectos aleatorios, se tiene el modelo II: 


Yijk — p + Ai + Bj + ( AB)ij 4 - eijk, 

para i = 1, 2, . . . , a; j = 1 , 2, . . . , 6; y k = 1 , 2, . . . , n, donde A it Bj ( AB ^ ) y e ijk son 
variables aleatorias independientes con medias igual a cero y varianzas <r 2 , erj |, er 2 ^, 
y <r 2 , respectivamente. La suma de cuadrados para experimentos del modelo II se 
calculan exactamente de la misma forma que para los del modelo I. Ahora se tiene 
interes en probar hipotesis de la forma 


H 0 - — 0, H 0 : — 0, H 0 : cx 2 ^ — 0, 

Hp a 2 t^O, H 1 : Up 7^ 0, H 1 : a 2 a p ^ 0, 

donde el denominador en la razon / no es necesariamente el error cuadratico medio. 
El denominador apropiado se determina al examinar los valores esperados de las dis- 
tintas medias cuadraticas. Estas se muestran en la tabla 14.14. 

De la tabla 14.14, se observa que H 0 y H 0 : se prueban usando s 2 en el denomi- 
nador de la razon /; mientras que H 0 : se prueba con s 2 en el denominador. Los es- 
timadores insesgados de los componentes de la varianza son 


°a/3 ~ 


— s 


2 


n 


bn 




an 


14.5 Experimentos factoriales de modelos II y III 
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Tabla 14.14: Medias cuadraticas esperadas para un experimento 
de dos factores del modelo II 


Fuente de 
variacion 

Grados de 
libertad 

Media 

cuadratica 

Media cuadratica 
esperada 

A 

a — 1 

o 2 

S 1 

^ + na lp + bna l 

B 

6-1 

s 2 

cr 2 + na 2 ,j + ancr 2 

AB 

(a - 1)(6 — 1) 

q 2 

s 3 

a 2 + na 2 a0 

Error 

ab{n — 1) 

s 2 

a 2 

Total 

abn — 1 




Tabla 14.15: Medias cuadraticas esperadas para un experimento 
con tres factores del modelo II 


Fuente de 
variacion 

Grados de 
libertad 

Media 

cuadratica 


Media cuadratica 
esperada 

A 

a — 1 

s 2 

6 1 

a 2 

+ na lp-y 

+ cna a 0 + ^ ncr a 7 + bcna 2 a 

B 

6-1 

<? 2 

S 2 

a 2 

+ na l0-y 

+ cna^p + ana 2 01 + acna 0 

C 

c — 1 

<? 2 

S 3 

a 2 

+ U,J lp 7 

+ bno 2 ai + ana 2 0 + abna 2 

AB 

(a - 1)(6 — 1) 

s 4 

a 2 

+ n(7 a/3 7 

+ cncr «/3 

AC 

(a - l)(c- 1) 

s 2 

6 5 

a 2 

+ 

+ bna 2 ^ 

BC 

(6 — l)(c — 1) 

s 2 

s 6 

a 2 

+ nvlp-y 

+ ana 2 01 

ABC 

(a — 1)(6 — l)(c — 1) 

s 2 

s 7 

a 2 

+ n<J lp-y 


Error 

abc[n — 1) 

s 2 

a 2 



Total 

abcn — 1 






En la tabla 14.15 se presentan las medias cuadraticas esperadas para el expe- 
rimento de tres factores con efectos aleatorios en un diseno aleatorio por completo. 
A partir de las medias cuadraticas esperadas de la tabla 14.15, es evidente que se 
pueden formar razones / adecuadas para probar todos los componentes de la varian- 
za de la interaction de dos y tres factores. Sin embargo, para probar una hipotesis 
de la forma 

Ho- = 0 , 

Hi- crl ^ 0, 

pareciera que no hay razon / apropiada, a menos que se encontrara que no es sig- 
nificativa una o mas de los componentes de la varianza de la interaction de dos 
factores. Por ejemplo, suponga que se hubiera comparado s| (media cuadratica AC) 
con s 2 (media cuadratica ABC ) y se encontrara que <r„ 7 es despreciable. Podri'a 
argumentarse que el termino er„ 7 debcri'a eliminarse de todas las medias cuadraticas 
esperadas de la tabla 14.15; entonces, la razon s 2 / s\ ofrece una prueba de la signi- 
ficancia del componente de la varianza. Por lo tanto, si se prueba la hipotesis 
concerniente a los componentes de la varianza de los efectos principales, en primer 
lugar es necesario investigar la significancia de los componentes de la interaction de 
dos factores. Una prueba aproximada derivada por Satterthwaite (vease la bibliogra- 
ffa), se utiliza cuando se encuentra que son significativos ciertos componentes de la 
varianza de la interaction de dos factores, por lo que deben permanecer como parte 
de la media cuadratica esperada. 
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Ejemplo 14.6:1 En un estudio para determinar cuales son las fuentes importantes de la variation en 
un proceso industrial, se toman tres mediciones de la respuesta para 3 operadores 
elegidos al azar, y se toman en forma aleatoria 4 lotes de materia prima. Se decidio 
que debe hacerse una prueba significativa con un nivel de significancia de 0.05 para 
determinar si son significativos los componentes de la varianza debidos a los lotes, 
los operadores y la interaccion. Ademas, tienen que calcularse los estimadores de los 
componentes de la varianza. En la tabla 14.16 se presentan los datos con la respues- 
ta expresada en porcentaje de peso: 


Tabla 14.16: Datos para el ejemplo 14.6 


Operador 


Lote 


1 

2 

3 

4 

1 

66.9 

68.3 

69.0 

69.3 


68.1 

67.4 

69.8 

70.9 


67.2 

67.7 

67.5 

71.4 

2 

66.3 

68.1 

69.7 

69.4 


65.4 

66.9 

68.8 

69.6 


65.8 

67.6 

69.2 

70.0 

3 

65.6 

66.0 

67.1 

67.9 


66.3 

66.9 

66.2 

68.4 


65.2 

67.3 

67.4 

68.7 


Solucion: Las sumas de los cuadrados se encuentran en la forma habitual, con los resultados 
siguientes: 

SST (total) = 84.5564, sse (error) = 10.6733, 

SSA (operadores) = 18.2106, SSB (lotes) = 50.1564, 

Ss(ab) (interaccion) = 5.5161. 

Se obtuvieron todos los demas calculos y se presentan en la tabla 14.17. Como 

/o.os(2,6) = 5.14, /o.os(3,6) = 4.76, y /o.o 5 (6, 24) = 2.51, 

se encuentra que son significativos los componentes de la varianza de los operadores 
y el lote. Aunque la varianza de la interaccion no es significativa con un nivel a = 
0.05, el valor P es de 0.095. Los estimadores de los componentes de la varianza del 
efecto principal son 

9.1053- 0.9194 „ 9 16.7188-0.9144 

= Tn = 0-68, a* = = 1.76. 


Experimento del modelo III (modelo mixto) 

Hay situaciones en que el experimento dicta la suposicion de un modelo mixto 
(es decir, una mezcla de efectos aleatorios y fijos) . Por ejemplo, para el caso de dos 
factores se tiene que 


Yijk — P + A, + Bj + {AB)ij + eijk, 


14.6 Election del tama.no de la muestra 
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Tabla 14.17: Analisis de la varianza para el ejemplo 14.6 


Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Media 

cuadratica 

/ 

calculada 

Operadores 

18.2106 

24 

9.1053 

9.90 

Lotes 

50.1564 

3 

16.7188 

18.18 

Interaccion 

5.5161 

6 

0.9194 

2.07 

Error 

10.6733 

24 

0.4447 


Total 

84.5564 

35 




para i = 1, 2, . . . , a; j = 1, 2, . . . , 6; k = 1, 2, . . . , n. Las Ai pueden ser variables 
aleatorias independientes de y las Bj son de efectos fijos. La naturaleza mixta 
del modelo requiere que los terminos de la interaccion sean variables aleatorias. Como 
resultado, las hipotesis relevantes son de la forma 

H 0 : = 0, H 0 : B\ = B 2 = ■ ■ ■ = = 0 H 0 : < 7 ^ = 0, 

/ n II III n 

Hj : H 1 : Al menos una de las Bj no es igual a cero H 1 : cr^p 7 ^ 0- 

Otra vez, los calculos de la suma de cuadrados son identicos a los de las situaciones 
fija y modelo II, y las pruebas / las dictan las medias cuadraticas esperadas. La tabla 
14.18 proporciona las medias cuadraticas esperadas para el problema de dos factores 
del modelo III. 


Tabla 14.18. Medias cuadraticas esperadas para el experimento 
con dos factores del modelo III 


Factor 

Media cuadratica esperada 

A (aleatorios) 

a 2 + bna \ 

B (fijos) 

° 2 +™lp + ^ZB 2 

AB (aleatorios) 

a 2 + na 2 af3 

Error 

a 2 


Debido a la naturaleza de las medias cuadraticas esperadas, queda claro que la 
prueba sobre el efecto aleatorio emplea el error cuadratico medio s 2 como 
denominador; mientras que la prueba sobre el efecto fijo utiliza la interaccion 
de la media cuadratica. Suponga que ahora se consideran tres factores. En este caso, 
por supuesto, debe tomarse en cuenta la situation tanto de que un factor es fijo como 
de que dos factores son fijos. La tabla 14.19 cubre ambas situaciones. 

Observe que en el caso de la A aleatoria, todos los efectos tienen pruebas / apro- 
piadas. Pero en el caso de Ay B aleatorias, el efecto principal C debe probarse con 
el uso de un procedimiento tipo Satterthwaitte similar al experimento del modelo II. 


14.6 Eleccion del tamano de la muestra 

A lo largo de este capftulo, nuestro estudio de experimentos factoriales se ha restrin- 
gido al uso de un diseno aleatorio por completo, con la exception de la section 14.4, 
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Tabla 14.19: Medias cuadraticas esperadas para experimentos con tres factores del modelo III 


A aleatoria A aleatoria, B aleatoria 


A 

a 2 

+ 

frcner 2 



a 2 

+ 

cna 2 a0 

+ 

bcna 2 


B 

a 2 

+ 

cn(T lf} 

+ 

b g2 

acn E ITT 

a 2 

+ 

cna 2 a0 

+ 

acncTp 


C 

a 2 

+ 

bno 2 ai 

+ 

c rii 

abn E 

a 2 

+ 

n <0 7 

+ 

ana 2 &1 + bna 2 7 

+ abnJ2 ^ 






k= 1 






k= 1 

AB 

a 2 

-1- 

CnCr af3 



a 2 

+ 

Cn<J a/3 




AC 

a 2 

-1- 

bna 2 aj 



a 2 

+ 

n<J l^ 

+ 

bna 2 ai 


BC 

a 2 

+ 


+ 

an V V 

a 2 

+ 


+ 

ana ^ 


ABC 

a 2 

-1- 

ntJ ll3-y 



a 2 

+ 

nCr lp 7 




Error 

a 2 




a 2 






donde se demostro el analisis de un experimento con dos factores en un diseno de 
bloques aleatorios. El diseno completamente aleatorio es facil de plantear, y el 
analisis, sencillo de ejecutar; sin embargo, debe utilizarse solo cuando el numero de 
combinaciones de tratamientos sea pequeiio y el material experimental sea homo- 
geneo. Aunque el diseno de bloques aleatorio es ideal para dividir un grupo grande 
de unidades heterogeneas en subgrupos de unidades homogeneas, por lo general, es 
diffcil obtener bloques uniformes con unidades suficientes a las cuales asignar un 
numero grande de combinaciones de tratamientos. Esta desventaja se elimina con la 
election de un diseno del catalogo de disenos de bloques incompletos, los cuales 
permiten investigar las diferencias entre los t tratamientos arreglados en b bloques, 
cada uno de los cuales contiene k unidades experimentales, donde k < t. El lector 
puede consultar a Box, Hunter y Hunter, para conocer mas detalles. 

Una vez que se ha seleccionado un diseno aleatorio por completo, se debe decidir 
si el numero de repeticiones es suficiente para producir pruebas de potencia alta en 
el analisis de varianza. Si no es asf, deben agregarse repeticiones, lo que a su vez 
hace necesario un diseno con bloques aleatorios por completo. Una vez que se haya 
comenzado con un diseno con bloques aleatorios, sera necesario cleterminar si el nu- 
mero de estos es suficiente para efectuar pruebas poderosas. Entonces, basicamente 
se regresa a la pregunta del tamaho de la muestra. 

La potencia de una prueba de efectos fijos para un tamaho de muestra dado se 
encuentra en la tabla A. 16, con el calculo del parametro A de no centralidad, y la 
funcion <jr que se analizo en la section 13.14. En la tabla 14.20 se dan las expresiones 
para X y <j) 2 para experimentos de efectos fijos de dos y tres factores. 

Los resultados de la section 13.14 para el modelo de efectos aleatorios pueden ex- 
trapolarse con facilidad a modelos de dos y tres factores. De nuevo, el procedimiento 
general se basa en los valores de las medias cuadraticas esperadas. Por ejemplo, si se 
esta probando a 2 = 0 en un experimento de dos factores, al calcular la razon sf/s 2 
(media cuadratica A/media cuadratica AB), entonces 

_ sl/(a 2 + no 2 afj + bno 2 a ) 
s 2 /(a 2 + na 2 a0 ) 


es un valor de la variable aleatoria F que tiene distribution F con a — 1 y (a — 1) 
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Tabla 14.20: Parametros X y (jr para modelos de dos y tres factores 



Experimented 

con dos factores 

Experimentos con tres factores 


A 

B 

A 

B 


c 


a 

b 

a 

b 


c 

A 

bn. V n- 2 

2a 2 2^ a i 

an o2 

2 a 2 2^ Pj 

ben 2 

2 a 2 2^ a i 

acn Y^ 2 

2(7 2 2^ Pj 

abn 
2 a 2 

E7 1 


i= 1 

i=i 

1=1 

3= 1 


k= 1 


a 

b 

a 

b 


c 

0 2 

is. rJ 

aa 2 2^ a i 

an o2 

ba 2 2^ Pj 

ben 2 

aa 2 2^ a i 

acn Y^ /Q 2 
ba 2 2^ Pj 

abn 

C(T 2 



i= 1 

3 = 1 

1=1 

3= 1 


k= 1 


( b — 1) grados de libertad, y la potencia de la prueba es 


1 -0 = P 


Si 

S3 


> f a [(a — 1), (a — 1)(6 — 1)] cuando 0 


= P( F > 


fg[(a - 1), (a ~ 1)0 ~ 1 )](g 2 + nalp) 
s 2 + ncr^p + bna 2 a 


Ej ercicios 


14.25 Para estimar los distintos componentes de la 
variabilidad en un proceso de filtracion, el porcentaje 
de material que se pierde en el licor madre se mide en 
12 condiciones experimentales, con 3 corridas en cada 
repeticion. Se seleccionan al azar 3 filtros y 4 opera- 
dores para usarlos en el experimento, lo que da como 
resultado las siguientes mediciones: 


Operador 


Filtro 

1 

2 

3 

4 

1 

16.2 

15.9 

15.6 

14.9 


16.8 

15.1 

15.9 

15.2 


17.1 

14.5 

16.1 

14.9 

2 

16.6 

16.0 

16.1 

15.4 


16.9 

16.3 

16.0 

14.6 


16.8 

16.5 

17.2 

15.9 

3 

16.7 

16.5 

16.4 

16.1 


16.9 

16.9 

17.4 

15.4 


17.1 

16.8 

16.9 

15.6 


a) Pruebe la hipotesis de que no hay interaction entre 
los componentes de la varianza para los filtros y los 
operadores, con un nivel de significancia a = 0.05. 

b ) Pruebe la hipotesis de que los operadores y los filtros 
no tienen ningun efecto sobre la variabilidad del proce- 
so de filtracion, con el nivel de significancia a = 0.05. 

c) Estime los componentes de la varianza que se debe 
a los filtros, operadores y error experimental. 

14.26 Si se supone un experimento del modelo II para 
el ejercicio 14.2 de la pagina 587, estime los componen- 
tes de la varianza para las marcas de concentrado de 


jugo de naranja, para el numero de dfas a partir del que 
el jugo se mezclo hasta que se hizo la prueba, y para el 
error experimental. 

14.27 Considere el analisis de varianza siguiente para 
un experimento del modelo II: 

Fuente de Grados de Media 


variacion 

libertad 

cuadratica 

A 

3 

140 

B 

1 

480 

C 

2 

325 

AB 

3 

15 

AC 

6 

24 

BC 

2 

18 

ABC 

6 

2 

Error 

24 

5 

Total 

47 



Pruebe los componentes significativos de la varianza 
entre todos los efectos principales, y los efectos de la 
interaction, para un nivel de significancia de 0.01 

a) usando un estimador agrupado del error cuando esto 
sea apropiado; 

b) sin agrupar las sumas de los cuadrados de los efectos 
insignificantes. 

14.28 En el ejercicio 14.16 de la pagina 597, i,son 
suficientes dos observaciones para cada combination 
de tratamientos, si la potencia de nuestra prueba para 
detectar diferencias entre los niveles del factor C con 
un nivel de significancia de 0.05 deben ser de al menos 
0.8, cuando 71 = —0.2, 72 = —0.4, y 73 = —0.2? Hagalo 
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con el mismo estimador agrupado de a 2 que se utilizo 
en el analisis de varianza. 

14.29 Con el empleo de los estimadores de los com- 
ponentes de la varianza del ejercicio 14.25, evalue la po- 
tencia cuando se prueba que el componente de la va- 
rianza debido a los filtros es igual a cero. 

14.30 Un contratista de la defensa esta interesado en 
estudiar un proceso de inspection para detectar fallas 
y fatiga de partes de recambio. Se utilizan tres niveles 
de inspection que ejecutan tres inspectores elegidos al 
azar. Se emplean cinco lotes por cada combination en 
el estudio. Los niveles de los factores estan en los datos. 
La respuesta se expresa en fallas por cada 1000 piezas. 


Nivel de inspection 



Inspection 

Inspection 




militar 

militar 



Inspector 

completa 

reducida 

Comercial 

A 

7.50 7.42 

7.08 6.17 

6.15 

5.52 


5.85 5.89 

5.65 5.30 

5.48 

5.48 


5.35 

5.02 

5.98 


B 

7.58 6.52 

7.68 5.86 

6.17 

6.20 


6.54 5.64 

5.28 5.38 

5.44 

5.75 


5.12 

4.87 

5.68 


C 

7.70 6.82 

7.19 6.19 

6.21 

5.66 


6.42 5.39 

5.85 5.35 

5.36 

5.90 


5.35 

5.01 

6.12 



a) Escriba un modelo adecuado, con suposiciones. 

b) Utilice analisis de varianza para probar las hipotesis 
apropiadas para los inspectores, el nivel de inspec- 
tion y la interaction. 

14.31 Un fabricante de pintura latex para interiores 
(marca A) quisiera demostrar que su pintura es mas 
robusta para el material donde aplica, que la de sus dos 
competidores mas cercanos. La respuesta es el tiempo, 
en afios, hasta que comienza a picarse. El estudio im- 
plica las tres marcas de pintura y tres materiales se- 
leccionados al azar. Para cada combination se utilizan 
dos piezas. 


Marca de pintura 


Material 

A 

B 

C 

A 

5.50 5.15 

4.75 

4.60 

5.10 5.20 

B 

5.60 5.55 

5.50 

5.60 

5.40 5.50 

C 

5.40 5.48 

5.05 

4.95 

4.50 4.55 


a) ^Cual es el tipo de modelo que se prefiere? 

b) Analice los datos, con el empleo del modelo apropiado. 

c) i,Los datos apoyan la afirmacion del fabricante de la 
marca A ? 


14.32 A un gerente de una planta le gustaria demos- 
trar que la production de una fabrica de lana de su 
planta no depende del operador de la maquina ni de la 
hora del dfa, y que es consistentemente elevada Para 
hacer el estudio se eligen al azar cuatro operadores y 
tres horas del dia tambien al azar. Se mide el producto 
en yardas por minuto. Se toman muestras aleatorias en 
tres dias elegidos al azar. Los datos son los siguientes: 


Operador 


Hora 

1 

2 

3 

4 

1 

9.5 

9.8 

9.8 

10.0 


9.8 

10.1 

10.3 

9.7 


10.0 

9.6 

9.7 

10.2 

2 

10.2 

10.1 

10.2 

10.3 


9.9 

9.8 

9.8 

10.1 


9.5 

9.7 

9.7 

9.9 

3 

10.5 

10.4 

9.9 

10.0 


10.2 

10.2 

10.3 

10.1 


9.3 

9.8 

10.2 

9.7 


a) Escriba el modelo apropiado. 

b) Evalue los componentes de la varianza para el ope- 
rador y la hora. 

c) Saque sus conclusiones. 

14.33 Un ingeniero de procesos desea determinar si 
la energia que se alimenta a las maquinas que llenan 
ciertos tipos de cajas de cereal tienen un efecto sig- 
nificativo sobre el peso real del producto. El estudio 
consiste en tomar al azar 3 tipos de cereal elaborados 
por la compani'a, y 3 flujos fijos de energia. Para cada 
combination se mide el peso de cuatro cajas de cereal 
diferentes seleccionadas al azar. El peso que se desea es 
de 400 gramos. A continuation se presentan los datos. 


Flujo de Tipo del cereal 

energia 12 3 


Bajo 

395 

401 

390 

400 

392 

394 

392 

401 

402 

399 

405 

399 

Actual 

396 

399 

390 

392 

404 

403 


400 

402 

395 

502 

400 

399 

Alto 

410 

408 

404 

406 

415 

412 


408 

407 

401 

400 

413 

415 


a) De el modelo adecuado y liste las suposiciones que 
se hacen. 

b) ^Hay un efecto significativo debido al flujo de ener- 
gia? 

c) ^Existe un componente significativo de la varianza 
debido al tipo de cereal? 


Ejercicios de repaso 
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14.34 El Centro de Consulta en Estadi'stica, del Ins- 
tituto Politecnico y Universidad Estatal de Virginia, 
participa en el analisis de un conjunto de datos tornados 
por el personal del Departamento de Nutrition Huma- 
na y Alimentos, en el cual hay interes por estudiar los 
efectos del tipo de harina y el porcentaje de edulcoran- 
te, sobre ciertos atributos fi'sicos de un tipo de pastel. 
Se usaron harinas para todo uso y para pasteles, y el 
porcentaje de edulcorante vario en cuatro niveles. Los 
datos siguientes muestran information acerca de la gra- 
vedad especi'fica de las muestras de pastel. Con cada una 
de las ocho combinaciones de factores se prepararon tres 
pasteles. 


Concentration 


de edulcorante 


Todo uso 

Pastel 

0 

0.90 

0.87 

0.90 

0.91 

0.90 

0.80 

50 

0.86 

0.89 

0.91 

0.88 

0.82 

0.83 

75 

0.93 

0.88 

0.87 

0.86 

0.85 

0.80 

100 

0.79 

0.82 

0.80 

0.86 

0.85 

0.85 


a) Haga el analisis de varianza con dos factores. Prue- 
be las diferencias entre el tipo de harina. Pruebe las 
diferencias entre la concentration de edulcorante. 


b) Analice el efecto de la interaction, si lo hubiera. 
Para todas las pruebas, senale los valores P. 

14.35 Se hizo un experimento en el Departamento de 
Ciencia de Alimentos, del Instituto Politecnico y Uni- 
versidad Estatal de Virginia. Tern'a interes caracterizar 
la textura de ciertos tipos de peces de la familia de los 
arenques. Tambien se estudio el efecto de los tipos de 
salsa empleada para preparar el pescado. La respuesta 
en el experimento era un “valor de textura”, medido 
con una maquina que rebanaba el producto de los pe- 
ces. Los siguientes datos son los valores de textura: 

Sabalo Sabalo 

Tipo de salsa sin curar curado Arenque 

27.6 57.4 64.0 66.9 107.0 83.9 

Crema acida 47.8 71.1 66.5 66.8 110.4 93.4 

53.8 53.8 83.1 

49.8 31.0 48.3 62.2 88.0 95.2 

Salsa envinada 11.8 35.1 54.6 43.6 108.2 86.7 

16.1 41.8 105.2 

a) Haga un analisis de varianza. Determine si hay o no 
interaction entre el tipo de salsa y el tipo de pez. 

b) Con base en los resultados del inciso a) y en prue- 
bas F de los efectos principales, determine si hay 
diferencia en la textura debido a los tipos de salsa, y 
determine si existe una diferencia significativa entre 
los tipos de peces. 

14.36 Se liizo un estudio para determinar si las con- 
diciones de humedad tienen efecto sobre la fuerza que 
se requiere para separar piezas de plastico pegadas. 


Se probaron tres tipos de plastico con cuatro niveles 
de humedad. Los resultados, en kilogramos, son los si- 
guientes: 


Humedad 


Tipo de plastico 

30 % 

50 % 

70 % 

90 % 

A 

39.0 

33.1 

33.8 

33.0 


42.8 

37.8 

30.7 

32.9 

B 

36.9 

27.2 

29.7 

28.5 


41.0 

26.8 

29.1 

27.9 

C 

27.4 

29.2 

26.7 

30.9 


30.3 

29.9 

32.0 

31.5 


a) Si se supone un experimento de modelo I, lleve a 
cabo un analisis de varianza y pruebe la hipotesis de 
que no hay interaction entre la humedad y el tipo 
de plastico, con un nivel de significancia de 0.05. 

b ) Usando solo plasticos A y B y el valor de s 2 del inci- 
so a), pruebe otra vez la presencia de la interaction 
con un nivel de significancia de 0.05. 

c) Utilice una comparacion con un grado de libertad y 
el valor de s 2 del inciso a), para comparar, con un 
nivel de significancia de 0.05, la fuerza que se requie- 
re con 30% de humedad contra 50, 70 y 90%. 

d) Repita el inciso c), usando solo el plastico C y el 
valor de s 2 del inciso a). 

14.37 Personal del Departamento de Ingenierfa de Ma- 
teriales del Instituto Politecnico y Universidad Estatal 
de Virginia llevo a cabo un experimento para estudiar los 
efectos de los factores ambientales sobre la estabilidad de 
cierto tipo de aleacion cobre-mquel. La respuesta basica 
fue la vida de fatiga del material. Los factores son nivel 
de esfuerzo y ambiente. Los datos son los siguientes. 

Nivel de esfuerzo 

Ambiente Bajo Medio Alto 

Hidrogeno 11.08 13.12 14.18 

seco 10.98 13.04 14.90 

11.24 13.37 15.10 

Humedad 10.75 12.73 14.15 

elevada 10.52 12.87 14.42 

( 95 %) 10.43 12.95 14.25 

a) Haga un analisis de varianza para probar la interac- 
tion entre los factores. Use a = 0.05. 

b ) Con base en el inciso a), efectue un analisis sobre 
los dos efectos principales y saque sus conclusiones. 
Utilice el enfoque del valor P para obtener las con- 
clusiones. 

14.38 En el experimento del ejercicio de repaso 14.34, 
tambien se utilizo como respuesta el volumen del pas- 
tel. Las unidades en que se expresa son pulgadas cubi- 
cas. Pruebe la interaction entre los factores y analice 
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los efectos principales. Suponga que los dos factores son 
efectos fijos. 

Concentration Harina 

de edulcorante Todo uso Pastel 


4.48 

3.98 

4.42 

4.12 

4.92 

5.10 

3.68 

5.04 

3.72 

5.00 

4.26 

4.34 

3.92 

3.82 

4.06 

4.82 

4.34 

4.40 

3.26 

3.80 

3.40 

4.32 

4.18 

4.30 


Realice pruebas t sobre todos los coeficientes y describa 
sus descubrimientos. 

b) ^Sus resultados sugieren que modelos diferentes son 
apropiados para el etanol y el tolueno, o tienen se- 
paration equivalente de las intersecciones? Explique 
su respuesta. 

c) ^Obtuvo conclusiones que contradigan las de la so- 
lution del ejercicio 14.23? Explique. 


14.39 Una valvula de control necesita ser muy sen- 
sible al voltaje de entrada, para asf generar un volta- 
je de salida adecuado. Un ingeniero gira las perillas de 
control para cambiar el voltaje de entrada. En el libro 
SN-Ratio for the Quality Evaluation , publicado por la 
Japanese Standards Association (1988), se describe un 
estudio sobre la forma en que esos tres factores (posi- 
tion relativa de las perillas de control, rango de control 
de las perillas y voltaje de entrada) influyen en la sensi- 
bilidad de rma valvula de control. A continuation se pre- 
sentan los factores y sus niveles. Los datos muestran la 
sensibilidad de una valvula de control. 

Factor A: position relativa de las perillas de control: 

centro —0.5, centra y centra +0.5. 

Factor B\ rango de control de las perillas: 

2, 4.5 y 7 (mm). 

Factor C\ voltaje de entrada: 

100, 120 y 150 (V). 

C 


ABC i C 2 C 3 


Ai 

Bi 

151 

135 

151 

135 

151 

138 

Ai 

b 2 

178 

171 

180 

173 

181 

174 

Ai 

B 3 

204 

190 

205 

190 

206 

192 

A 2 

Bi 

156 

148 

158 

149 

158 

150 

A 2 

b 2 

183 

168 

183 

170 

183 

172 

A 2 

B 3 

210 

204 

211 

203 

213 

204 

a 3 

B 3 

161 

145 

162 

148 

163 

148 

a 3 

b 2 

189 

182 

191 

184 

192 

183 

a 3 

B 3 

215 

202 

216 

203 

217 

205 


Realice un analisis de varianza con a = 0.05 para pro- 
bar la significancia de los efectos principal y de interac- 
tion. Saque sus conclusiones. 


14.40 En el ejercicio 14.23 de la pagina 600 se descri- 
be un experimento que implica la extraction de polieti- 
leno a traves de un solvente. 


Tiempo 

Solvente Temp. 4 

8 

16 

Etanol 120 94 0 ’ 94 0 

93.8, 94.2 

91.1, 90.5 

80 95.3, 95.1 

94.9, 95.3 

92.5, 92.4 

™ , 120 94.6, 94.5 

lolueno 

93.6, 94.1 

91.1, 91.0 

80 95.4, 95.4 

95.6, 96.0 

92.1, 92.1 


a) Haga una clase diferente de analisis de los datos. Ajus- 
te un modelo adecuado de regresion con una variable 
categorica del solvente, un termino de temperatura, 
otro del tiempo, y uno para la interaction de la tem- 
peratura con el tiempo, una interaction del solvente 
con la temperatura, y otra del solvente con el tiempo. 


14.41 En el libro SN-Ratio for the Quality Evalua- 
tion, publicado por la Japanese Standards Association 
(1988), se describe un estudio que se realizo acerca de 
como la presion del aire de las llantas afecta la manio- 
brabilidad de un automovil. Se compararon tres presio- 
nes distintas del aire en aquellas, sobre tres superficies 
diferentes de manejo. Las tres presiones del aire fueron 
de 6 kgf/cm 2 para las llantas tanto del lado izquierdo 
como del derecho infladas a 6 kgf/cm 2 , las llantas del 
lado izquierdo infladas a 3kgf/cm 2 y las llantas de am- 
bos lados infladas a 3 kgf/cm 2 . Las tres superficies de 
manejo fueron asfalto, asfalto seco y cemento seco. Se 
observo dos veces el radio de curvatura de un vehfculo 
de prueba para cada nivel de presion de las llantas so- 
bre cada una de las tres superficies de manejo. 

Presion del aire de las llantas 


12 3 


Asfalto 

44.0 

25.5 

34.2 

37.2 

27.4 

42.8 

Asfalto seco 

31.9 

33.7 

31.8 

27.6 

43.7 

38.2 

Cemento seco 

27.3 

39.5 

46.6 

28.1 

35.5 

34.6 


Realice un analisis de varianza con los datos anteriores. 
Haga comentarios acerca de la interpretation de los efec- 
tos principal y de interaction. 

14.42 El fabricante de cierta marca de cafe secado 
por congelation espera reducir el tiempo del proceso 
sin arriesgar la integridad del producto. Desea usar tres 
temperaturas para la camara de secado y cuatro tiem- 
pos para secar. El tiempo de secado actual es de 3 flo- 
ras con una temperatura de —15 °C. La respuesta del 
sabor es un promedio de las calificationes de cuatro jue- 
ces profesionales. La calificacion esta en una escala de 
1 a 10, donde 10 es la mejor. En la tabla que sigue se pre- 
sentan los datos. 


Temperatura 


Tiempo 

-20 

°C 

-15 

°C 

-10 

°C 

1 h 

9.60 

9.63 

9.55 

9.50 

9.40 

9.43 

1.5 h 

9.75 

9.73 

9.60 

9.61 

9.55 

9.48 

2 h 

9.82 

9.93 

9.81 

9.78 

9.50 

9.52 

3 h 

9.78 

9.81 

9.80 

9.75 

9.55 

9.58 


o) iQue tipo de modelo debe utilizarse? Plantee las 
suposiciones. 

b) Analice los datos en forma apropiada. 

c) Escriba un reporte breve al vicepresidente encarga- 
do y hagale una recomendacion para la elaboration 
futura de este producto. 


14.7 Nociones erroneas y riesgos potenciales 
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14.43 Para garantizar el numero de cajeros necesa- 
rios durante las horas pico de la operation, se recaba- 
ron datos en un banco citadino. Se estudiaron cuatro 
cajeros durante tres horarios “ocupados”, 1. entre se- 
mana, de 10:00 a 11:00 A.M., 2. por las tardes entre 
semana, entre las 2:00 y las 3:00 p.m., y 3. las mananas 
de los sabados, entre las 11:00 y las 12:00. Un analista 
eligio al azar cuatro horarios dentro de cada uno de los 
tres periodos, para cada una de las cuatro posiciones 
de los cajeros durante un periodo de varios meses y se 
observo el numero de clientes atendidos. Los datos son 
los siguientes: 


Periodo 


Cajero 12 3 


1 

2 

3 

4 


18, 24, 17, 22 
16, 11, 19, 14 
12, 19, 11, 22 
11, 9, 13, 8 


25, 29, 23, 32 
23, 32, 25, 17 
27, 33, 27, 24 
10, 7, 19, 8 


29, 30, 21, 34 
27, 29, 18, 16 
25, 20, 29, 15 
11, 9, 17, 9 


Se supone que el numero de clientes atendidos es una 

variable aleatoria de Poisson. 

a) Comente sobre el riesgo de llevar a cabo un analisis 
de varianza estandar con los datos anteriores. /.Que 
suposiciones, si las hubiera, se trasgrediri'an? 

b) Realice una tabla de anova estandar que incluya 
pruebas F de los efectos y las interacciones prin- 
cipales. Si las interacciones y los efectos principales 
son significativos, establezca las conclusiones cien- 
tfficas. /.Que aprendimos? Asegurese de interpretar 
cualquier interaction significativa. Utilice su pro- 
pio juicio con respecto a los valores P. 

c) Realice un analisis completo de nuevo usando una 
transformation apropiada en la respuesta. /.Encontro 
alguna diferencia en los resultados? Haga comenta- 
rios al respecto. 


14.7 Nociones erroneas y riesgos potenciales; 

relacion con el material de otros capftulos 

Uno de los temas mas susceptibles de confusion en el analisis de experimentos fac- 
toriales, radica en la interpretation de los efectos principales ante la presencia de 
interaction. La existencia de un valor P relativamente grande para un efecto princi- 
pal, cuando es clara la presencia de interacciones, podrfa tentar al analista a concluir 
que “no existe efecto principal significativo” . Sin embargo, debe entenderse que si 
un efecto principal esta implicado en una interaction significativa, entonces el efecto 
principal esta influyendo en la respuesta. La naturaleza del efecto es inconsisten- 
te a traves de los niveles de otros efectos. La naturaleza del papel del efecto principal 
se deduce en las graflcas de interaction. 

A la luz de lo que se afirma en el parrafo anterior, hay peligro sustancial de usar 
de manera equivocada la estadfstica cuando se emplea en un prueba de comparacion 
multiple sobre los efectos principales ante la presencia clara de la interaction entre 
los factores. 

Debe tenerse precaution en el analisis de un experimento factorial cuando se hace 
la suposicion de un diseho aleatorio por completo y en realidad este no ocurre. Por 
ejemplo, es comi'm que se encuentren factores que son muy diffciles de cambiar. 
Como resultado, podrfa ser necesario mantener sin cambio, durante largos periodos, 
los niveles de factores a traves del experimento. El ejemplo de la temperatura es 
comun. Subirla o bajarla en un esquema aleatorio es un plan costoso y la mayorfa de 
los experimentadores evitaran hacerlo. Los disehos experimentales con restricciones 
en la aleatorizacion son muy comunes y reciben el nombre de disehos de graflcas 
separadas. Estan mas alia del alcance de este libro, pero en Montgomery, 2001, se 
encuentra su presentation. 



Capitulo 15 

Experimentos factoriales 2 k 
y fracciones 


15.1 Introduccion 

Ya se han expuesto ciertos conceptos de disenos experimentales. El plan de mues- 
treo para la prueba t simple sobre la media de una poblacion normal, y tambien el 
analisis de varianza que implica la asignacion, a las unidades experimentales, los 
tratamientos seleccionados previamente al azar. El diseno por bloques completamen- 
te aleatorios, donde los tratamientos se asignan a las unidades dentro de bloques 
relativamente homogeneos, implica aleatorizacion restringida. 

En este capitulo se presta atencion especial a disenos experimentales, en los 
cuales el plan experimental requiere el estudio del efecto sobre una respuesta de k 
factores, cada uno de los cuales en dos niveles. Estos, por lo general, se conocen como 
experimentos factoriales 2 k . Es frecuente que los niveles se denoten como “alto” 
y “bajo” , aun cuando esa notation sea arbitraria en el caso de variables cualitativas. 
El diseno factorial complete requiere que cada nivel de cada factor ocurra con cada 
nivel de cada uno de los demas factores, lo que da un total de 2 fc combinaciones 
de tratamientos. 

Exploracion de factores y experimentacion secuencial 

Es frecuente que cuando se lleva a cabo experimentacion, ya sea en un nivel de in- 
vestigation o desarrollo, un diseno experimental bien planeado es una etapa de lo que 
en realidad es el plan secuencial de la experimentacion. Es mas bien frecuente que los 
cientificos e ingenieros, al finalizar el estudio, no tengan cuidado de que factores son 
importantes ni de cuales son los rangos apropiados en los factores potenciales por 
donde deberia conducirse la experimentacion. Por ejemplo, en el libro Response Sur- 
face Methodology , Myers y Montgomery (2002) dan un ejemplo de investigation de 
un experimento en una planta piloto, en el que se varian cuatro factores — tem- 
peratura, presion, concentration de formaldehido y tasa de enfriamiento — , con la 
finalidad de establecer su influencia sobre la respuesta, la tasa de filtration de cierto 
producto quimico. Aun al nivel de planta piloto, los cientificos no estan seguros 
de si deben intervenir en todos los factores en el modelo. Ademas, el objetivo final 
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consiste en determinar los niveles adecuados en que contribuyen los factores para 
maximizar la tasa de filtration. Asf, existe la necesidad de determinar la region 
apropiada de experimentation. Las preguntas pueden responderse solo si el 
plan experimental total se realiza en forma secuencial. Muchos intentos son planes 
que implican aprendizaje iterative >, el tipo de aprendizaje consistente con el metodo 
cientffico, en el que la palabra iterativo implica experimentacion con sabidurfa en 
cada etapa. 

Por lo general, la etapa inicial del plan secuencial ideal es variable, o de explo- 
ration factorial, que es un procedimiento que implica un diseno experimental de 
bajo costo para buscar los factores candidatos. Esto tiene importancia especial 
cuando el plan requiere un sistema complejo, como un proceso de manufactura. La 
information obtenida a partir de los resultados de un diseno exploratorio se emplea 
para disenar uno o mas experimentos posteriores, en los cuales se realizan ajustes en 
los factores importantes. Se trata de ajustes con los que se obtendran mejorfas en el 
sistema o proceso. 

Los experimentos factoriales 2 k y fracciones de 2 k son poderosas herramientas 
que son disenos exploratorios ideales. Son sencillos y practicos, y tiene una atraccion 
intuitiva. Muchos de los conceptos generates que se estudian en el capitulo 14 siguen 
siendo validos. Sin embargo, hay metodos graficos que brindan anticipaciones utiles 
en el analisis de los dos niveles de diseno. 

Disenos exploratorios para numeros grandes de factores 

Cuando k es pequena, digamos k = 2 o incluso k = 3, queda clara la utilidad del 
factorial 2 k para la exploration de factores. Tanto el analisis de varianza como el de 
regresion, segun se estudiaron e ilustraron en los capitulos 12, 13 y 14, continuan 
siendo herramientas utiles. Ademas, los enfoques graficos seran evidentes. 

Si k es grande, por ejemplo 6, 7 u 8, el numero de combinaciones de factores y, 
por lo tanto, de corridas experimentales, con frecuencia resultara ser prohibitive. Por 
ejemplo, suponga que hay interes en ejecutar un diseno exploratorio que involucre 
k = 8 factores. Podria desearse obtener information acerca de tolos los k = 8 efectos 
principales, asi como de las = 28 interacciones de dos factores. Sin embargo, 

2 s = 256 corridas pareceria un numero demasiado grande y excesivo para estudiar 
28 + 8 = 36 efectos. Pero, como se vera en secciones futuras, cuando k es grande, es 
posible obtener information considerable de manera eficaz usando solo una fraction 
del experimento factorial 2 k complete. Esta clase de disenos es la clase de disenos facto- 
riales fraccionarios. La meta es recuperar information de alta calidad acerca de los 
efectos principales y las interacciones interesantes, aun cuando el tamaho del diseno 
se reduzca en forma considerable. 


15.2 El factorial 2 k : Calculo de los efectos y analisis de varianza 

Considere inicialmente un factorial 2 2 con factores A y B y n observaciones experi- 
mentales por combinacion de factores. Es util emplear los sfmbolos (1), a, b y ab para 
denotar los puntos del diseno, donde la presencia de ima letra minuscula implique que 
el factor ( A o B) esta en el nivel alto. Asf, la ausencia de la minuscula implica que el 
factor esta en el nivel bajo. Por lo que ab es el punto de diseno (+,+), a es (+,—), b es 
(— ,+) y (1) es (—,—)■ Mas adelante habra situaciones en que la notation tambien se 
aplique para los datos de respuesta en el punto de diseno en cuestion. Como introduc- 
tion al calculo de efectos importantes que ayuden a la determination de la influencia 
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de los factores y sumas de cuadrados que estan incorporados en los calculos del 
analisis de varianza, se presenta la tabla 15.1. 


Tabla 15.1: Un experimento factorial 2 2 


A Media 



f b 

ab 

b+ab 

B \ 


2 n 

1 

{ 

a 

(l)+a 

2 n 

Media 

(1 )+b 

2 n 

a+afe 

2 n 



En esta tabla, (1), a, b y ab representan totales de los n valores de la respuesta 
en los puntos de diseno individuales. La simplicidad del factorial 2 2 se define por 
el hecho de que aparte del error experimental, la information importante se le da 
al analista en componentes de un solo grado de libertad, uno para los dos efectos 
principales A y B, y un grado de libertad para la interaction AB. La information 

que se recupera sobre todos estos aspectos adopta la forma de tres contrastes. Se 

definiran los siguientes contrastes entre los totales de los tratamientos: 

contraste de A = ab + a — b — (1), 

contraste de B = ab — a + b — (1), 

contraste de AB = ab — a — b + (1). 

Los tres efectos del experimento implican estos contrastes y requieren de sentido 
comi'm e intuition. Los dos efectos principales calculados tienen la forma 


efecto = y H - y L , 


donde y h y Vl son las respuestas promedio en el nivel alto o “+”, y en el nivel bajo 
o respectivamente. Como resultado, queda 


Calculo de los 
efectos principales 

y 


A = 


ab + a — b — (1) 
2 n 


A contraste 
2 n 


B = 


ab — a + b — (1) 
2 n 


B contraste 
2 n 


La cantidad A es vista como la diferencia entre la respuesta media en los niveles 
alto y bajo del factor A. De hecho, A se denomina el efecto principal de A. En 
forma similar, B es el efecto principal del factor B. En la tabla 15.1, al inspeccionar 
la diferencia entre ab — b y a — (1), o entre ab — a y b — (1), se observa interaction 
aparente en los datos. Por ejemplo, si 


ab — a « b — (1) o bien ab — a — b + (1) ss 0, 


una recta que conectara las respuestas para cada nivel del factor A en el nivel alto 
del factor B : serfa aproximadamente paralela a una recta que uniera la respuesta 
para cada nivel del factor A en el nivel bajo del factor B. Las rectas no paralelas 
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de la figura 15.1 sugieren la presencia de interaction. Para probar si tal interaction 
aparente es significativa, se construye un tercer contraste en los totales del trata- 
miento ortogonal a los contrastes del efecto principal, el cual se denomina efecto de 
la interaction, lo que se hace con la evaluation de 


Efecto de la 
interaction 


AB 


ab — a — b + (1) 
2 n 


AB contraste 
2 n 



Figura 15.1: Respuesta que sugiere interaction aparente. 


Ejemplo 15.1:1 Considere los datos de las tablas 15.2 y 15.3, con n = 1 para un experimento facto- 
rial 2 2 . 


Tabla 15.2: Factorial 2 2 sin interaction Tabla 15.3: Factorial 2 2 con interaction 




B 




B 


A 

- 


+ 

A 

- 


+ 

+ 

50 


70 

+ 

50 


70 

- 

80 


100 

- 

80 


40 


Los nrimeros en las celdas de las tablas 15.2 y 15.3 ilustran con claridad la manera 
en que los contrastes y el calculo resultante de los dos efectos principales y conclusio- 
nes que surgen pueden recibir una gran influencia de la presencia de interaction. En 
la tabla 15.2, el efecto de A es —30 en los niveles tanto bajo como alto de B , y el efec- 
to de B es 20 en los dos niveles del factor A, bajo y alto. Esta “consistencia del efecto” 
(no hay interaction) es una information muy importante para el analista. Los efectos 
principales son 


A = 

70 + 50 

100 + 80 

= 60- 

90 = 

-30, 

2 

2 

B = 

100 + 70 

80 + 50 

= 85- 

65 = 

20, 

2 

2 


mientras que el efecto de la interaction es 


AB 


100 -I- 50 


80 + 70 


= 75 - 75 = 0. 


2 


2 


Respuesta 
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Por otro lado, en la tabla 15.3, el efecto A es de nuevo —30 al nivel bajo de B , pero 
+30 al nivel alto de B. Esta “inconsistencia del efecto” (interaccion) tambien esta 
presente para B a traves de los niveles de A. En estos casos, los efectos principals 
pueden carecer de significado y, en efecto, confundir mucho. Por ejemplo el efecto 
de A es 


50 + 70 80 + 40 


ya que hay un “enmascaramiento” completo del efecto conforme se promedia sobre 
los niveles de B. La interaccion fuerte se ilustra con el efecto calculado 


AB 


70 + 80 
2 


50 + 40 
2 


= 30. 


Aquf, es conveniente ilustrar los escenarios de las tablas 15.2 y 15.3 con las graficas 
de interaccion. Observe el paralelismo en la grafica de la figura 15.2 y la interaccion 
visible en la figura 15.3. 



A 



A 


Figura 15.2: Grafica de la interaccion para Figura 15.3: Grafica de la interaccion para 

los datos de la tabla 15.2. los datos de la tabla 15.3. 


Calculo de las sumas de los cuadrados 

Se aprovecha el hecho de que en el factorial 2 2 , o para el caso general del expe- 
rimento factorial 2 fc , cada efecto principal y efecto de la interaccion tiene asociado 
un solo grado de libertad. Por lo tanto, es posible escribir contrastes ortogonales 
2 k — 1 de un solo grado de libertad en las combinaciones de tratamientos, y cada una 
es responsable de la variation debida a cierto efecto principal o interaccion. Asf, con 
las suposiciones usuales de independence y normalidad en el modelo del experimen- 
to, se hacen pruebas para determinar si el contraste refleja variation sistematica o 
solo variaciones probabilfsticas o aleatorias. Las sumas de los cuadrados para cada 
contraste se encuentran al seguir los procedimientos que se dieron en la section 13.5. 
Queda 


Yi.. = b + (i) 


+2.. = ab + a 


Cl = - 1 , 


y 


C2 = 1, 
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donde Yi.. y Y 2 ,, son el total de 2 n observaciones, y se tiene 


SSA = SSwa 



i = 1 


[ab + a — b — (l)] 2 
¥n 


(. A contraste) 2 
¥n 


con 1 grado de libertad. Asimismo, se encuentra que 


y 


SSB 


[ab + b — a — (l)] 2 
2 2 n 


( B contraste) 2 
2 2 n 


SS(AB) 


[ab + (1) — a — b} 2 
¥n 


( AB contraste) 2 

2hi 


Cada contraste tienen 1 grado de libertad, mientras que las sumas de los cuadrados 
de los errores, con 2 2 (n — 1) grados de libertad, se obtienen por sustraccion, de la 
formula 


SSE = SST - SSA - SSB - SS(AB) . 

A1 calcular las sumas de los cuadrados para los efectos principales A y B y el efecto 
de la interaction AB , es conveniente presentar las salidas totales de las combinacio- 
nes de tratamiento, junto con los signos algebraicos apropiados para cada contraste, 
como se ve en la tabla 15.4. Los efectos principales se obtienen como comparaciones 
simples entre los niveles alto y bajo. Por lo tanto, se establece un signo positivo para 
la combination de tratamiento que este en el nivel alto de un factor dado, y uno 
negativo a la del nivel bajo. Los signos positivo y negativo para el efecto de la inte- 
raction se obtienen al multiplicar los signos correspondientes a los contrastes de los 
factores de la interaction. 


Tabla 15.4: Signos de los contrastes en un experimento factorial 2 2 


Combination 

Efecto factorial 

de tratamientos 

A 

B 

AB 

(1) 

- 

- 

+ 

a 

+ 

- 

- 

b 

- 

+ 

- 

ab 

-1- 

+ 

+ 


El factorial 2 3 


Ahora consideremos un experimento con el uso de tres factores, A, B y C, cada uno 
con niveles —1 y +1. Este es un experimento factorial 2 3 que da ocho combinaciones 
de tratamiento (1), a, b, c, ab , ac, be y abc. En la tabla 15.5 se presentan las com- 
binaciones de tratamiento y los signos algebraicos apropiados para cada contraste, 
que se usan para calcular las sumas de los cuadrados para los efectos principales y 
los de la interaction. 
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Tabla 15.5: Signos de los contrastes en un experimento factorial 2 3 


Combinacion de 
tratamiento 


Efecto factorial (simbolico) 

A 

B 

C 

AB 

AC 

BC 

ABC 

(1) 

— 

- 

— 

+ 

+ 

+ 

- 

a 

+ 

- 

- 

- 

- 

+ 

+ 

b 

- 

+ 

- 

- 

+ 

- 

+ 

c 

- 

- 

+ 

+ 

- 

- 

+ 

ab 

+ 

+ 

- 

+ 

- 

- 

- 

ac 

+ 

— 

+ 

- 

+ 

- 

- 

be 

— 

+ 

+ 

- 

— 

+ 

- 

abc 

+ 

+ 

+ 

+ 

+ 

+ 

+ 



Figura 15.4: Vista geometrica de 2 3 . 


Es de ayuda analizar e ilustrar la geometri'a del factorial 2 3 del mismo modo que 
se hizo para el 2 2 en la figura 15.1. Para el 2 3 , los ocho puntos de diseno repre- 
sentan los vertices de un cubo que se muestra en la figura 15.4. 

Las columnas de la tabla 15.5 representan los signos que se utilizan para los contras- 
tes y los calculos de siete efectos y las siimas de los cuadrados correspondientes. Estas 
columnas son analogas a las que se dan en la tabla 15.4 para el caso de 2 2 . Como los 
puntos de diseno son ocho, hay siete efectos disponibles. Por ejemplo, 

a + ab + ac + abc — (1) — b — c — be 
4 n 

(1) + c + ab + abc — a — b — ac — be 
4 n 

y asf sucesivamente. Las sumas de cuadrados estan dadas por 

SS(efecto) = 


A = 
AB = 


El estudio de la tabla 15.5 revela que para el experimento 2 3 todos los contrastes 
entre los siete son mutuamente ortogonales y por ello los siete efectos se evaluan en 
forma independiente. 
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Efectos y suma de cuadrados para el 2 k 

Para un experimento factorial 2 k , las sumas de cuadrados de un solo grado de liber- 
tad para los efectos principales, y los efectos de la interaction se obtienen al elevar al 
cuadrado los contrastes apropiados en los totales del tratamiento y dividiendo entre 
2 3 n, donde n es el mimero de repeticiones de las combinaciones del tratamiento. 

Como antes, un efecto siempre se calcula al restar la respuesta promedio al nivel 
“bajo”, de la respuesta promedio al nivel “alto”. Para los efectos principales, alto y 
bajo estan muy en claro. El alto y bajo simbolicos para las interacciones son eviden- 
tes a partir de la information de la tabla 15.5. 

La propiedad de ortogonalidad tiene la misma importancia que teni'a en el estudio 
de las comparaciones que se hizo en el capitulo 13. La ortogonalidad de los contras- 
tes implica que los efectos estimados y, por lo tanto, las sumas de los cuadrados, son 
independientes. Esta independencia se ilustra con claridad en el experimento facto- 
rial 2 3 si la salida, con el factor A en su nivel alto, se incrementa en una cantidad x, 
en la tabla 15.5. Solo el contraste A conduce a una suma de cuadrados mas grande 
porque el efecto x se cancela en la formation de los seis contrastes remanentes, como 
resultado de los dos signos positivos y dos negativos, asociados con las combinacio- 
nes de tratamientos en los que A se halla en el nivel alto. 

Hay ventajas adicionales producidas por la ortogonalidad. Estas se veran cuando 
se estudie el experimento factorial 2 k en situaciones de regresion. 


15.3 Experimento factorial 2 k no replicado 

El factorial completo 2 k con frecuencia requiere experimentation considerable, en 
particular cuando k es grande. Como resultado, no es raro que no se permita la repli- 
cation de cada combination de factores. Si en el modelo del experimento se incluyen 
todos los efectos, inclusive todas las interacciones, no se permite ningun grado de 
libertad para el error. Frecuentemente, cuando k es grande, el analista de los datos 
agrupara las sumas de los cuadrados y los grados de libertad correspondientes para 
las interacciones de orden superior que se sabe, o se supone, son despreciables. Esto 
producira pruebas F para muchos efectos e interacciones de orden inferior. 


Graficacion de diagnostico con experimentos factoriales 2 k no replicados 

Las graficas de probabilidad normal son un metodo muy util para determinar la 
importancia relativa de los efectos, en un experimento factorizado de dos niveles 
razonablemente grande, cuando no hay replication. En especial este tipo de grafica 
de diagnostico es de mucha ayuda cuando el analista duda en agrupar interacciones de 
orden superior, por temor de que algunos de los efectos agrupados en el “error” en 
verdad sean efectos reales y no solo aleatorios. El lector debe recordar que todos los 
efectos que no son reales (es decir, son estimadores de cero independientes) siguen 
una distribution normal con media cercana a cero y varianza constante. Por ejem- 
plo, en un experimento factorial 2 4 , se debe recordar que todos los efectos (hay que 
tener en cuanta que n = 1) son de la forma 

contraste 

AB = = Vh - VL, 

donde yu es el promedio de ocho corridas experimentales independientes en el nivel 
alto o “+”, y yL es el promedio de ocho corridas independientes en el nivel bajo o 
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Asf, la varianza de cada contraste es V ar(yn — y l) = er 2 /4. Para cualesquie- 
ra esfectos reales E(yn — Vl) 0. Asf, la grafica de probabilidad normal deberfa 
revelar efectos “significativos” como aquellos que caen fuera de la li'nea recta que 
describe realizaciones de variables aleatorias con distribution normal identica e in- 
dependientes. 

La grafica de probabilidad puede adoptar una de muchas formas. Se recomienda 
al lector que consulte el capftulo 8, donde se presentan dichas graficas. Puede usarse 
la grafica cuantil-cuantil, normal y empfrica. Tambien es posible utilizar el procedi- 
miento de graficacion con el papel de probabilidad normal. Ademas, hay otros tipos 
de graficas de probabilidad normal para el diagnostico. En resumen, las graficas de 
efectos para el diagnostico son como sigue. 


Grafica de efectos 
de probabilidad 
para experimentos 
factoriales 2 3 no 
replicados 


1. Calcule los efectos como 


efecto = 


contraste 

2 k ~ 1 


2 . Construya una grafica de probabilidad normal de todos los efectos. 

3. Los efectos que caigan fuera de la lfnea recta deben considerarse reales. 


A continuation se hacen mas comentarios respecto de las graficas de probabilidad 
normal de los efectos. En primer lugar, el analista quiza se sintiera frustrado si las 
utilizara con un experimento pequeno. Es probable que la graficacion de resultados 
satisfactorios cuando haya escasez del efecto: muchos efectos que en verdad no son 
reales. Esta escasez sera evidente en experimentos grandes en los cuales es probable 
que no sean reales las interacciones de orden superior. 


15.4 Estudio de caso del moldeo por inyeccion 


Ejemplo 15.2:1 Muchas companfas manufactureras de Estados Unidos y el extranjero utilizan par- 
tes moldeadas como componentes de un proceso. Es frecuente que el rebasamiento 
sea un problema grande. A menudo, un molde troquelado de una parte se construye 
con un tarnaho mas grande que el nominal para permitir el derrame. En la situation 
experimental siguiente se produce un molde nuevo, y es importante encontrar las espe- 
cificaciones adecuadas del proceso, con la finalidad de minimizar el derrame. En el ex- 
perimento siguiente, los valores de la respuesta son desviaciones del nominal (derra- 
mes). Los factores y niveles son los siguientes: 


Niveles de codigo 

~1 +1 


A. Velocidad de inyeccion (pies/seg) 

1.0 

2.0 

B. Temperatura del molde (°C) 

100 

150 

C. Presion del molde (psi) 

500 

1000 

D. Presion posterior (psi) 

75 

120 


El proposito del experimento es determinar cuales efectos (principales y de inte- 
raction) influyen en el derrame. El experimento se considero un sondeo preliminar, a 
partir del cual se determinaran los factores para un analisis mas completo. Asimis- 
mo, se espera obtener alguna perspectiva de como podrfan determinarse los factores 


620 


Capitulo 15 Experimentos factoriales 2 k y fracciones 


importantes que influyen en el derrame. En la tabla 15.6 se presentan los datos de 
un experimento factorial 2 4 no replicado. 


Tabla 15.6: Datos para el ejemplo 15.2 


Combination 
de factores 

Respuesta 
(cm x 10 4 ) 

Combination 
de factores 

Respuesta 
(cm x 10 4 ) 

(1) 

72.68 

d 

73.52 

a 

71.74 

ad 

75.97 

b 

76.09 

bd 

74.28 

ab 

93.19 

abd 

92.87 

c 

71.25 

cd 

79.34 

ac 

70.59 

acd 

75.12 

be 

70.92 

bed 

79.67 

abc 

104.96 

abed 

97.80 


Inicialmente, se calcularon los efectos y se plasmaron en una grafica de probabi- 
lidad normal. Los efectos calculados son los siguientes: 


A = 10.5613, 
C = 2.4138, 
AC = 1.2613, 
CD = 1.4088, 
ACD = -3.0438, 


BD = -2.2787, 
D = 2.1438, 
AD = -1.8238, 
ABC = 2.8588, 
BCD = -0.4788, 


B = 12.4463, 
AB = 11.4038, 
BC = 1.8163, 
ABD = -1.7813, 
ABCD = -1.3063. 


La grafica de probabilidad normal se muestra en la figura 15.5. La grafica parece 
implicar que los efectos A, B y AB son importantes. Los signos de los efectos impor- 
tantes indican que las conclusiones preliminares son las siguientes: 

1. Un incremento en la velocidad de inyeccion de 1.0 a 2.0 aumenta el derrame. 

2. Un aumento en la temperatura del molde, de 100 °C a 150 °C incrementa el 
derrame. 

3. Hay una interaction entre la velocidad de inyeccion y la temperatura del molde; 
aunque ambos efectos principales son importantes, es crucial que se entienda el 
efecto de la interaction de los dos factores. 


Analisis con error cuadratico medio agrupado: 

Salida anotada de computadora 

Puede ser de interes observar un analisis de varianza de los datos del moldeo por 
inyeccion con interacciones de orden superior agrupadas para formar un error cua- 
dratico medio. Las interacciones de orden tres y cuatro estan agrupadas. En la figura 
15.6 se muestra una salida de SAS proc Glm. El analisis de varianza revela en esencia 
la misma conclusion que la grafica de probabilidad normal. 

Las pruebas y los valores P que se observan en la figura 15.6 requieren una 
interpretation. Un valor significativo P sugiere que el efecto difiere de cero en for- 
ma significativa. Las pruebas sobre los efectos principales (que en presencia de las 
interacciones pueden considerarse como los efectos promediados sobre el nivel de 
los demas factores) indican la significancia para los efectos Ay B. Los signos de los 
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Figura 15.5: Grafica cuantil-cuantil normal de los efectos para el estudio de caso del 
ejemplo 15.2. 


efectos tambien son importantes. Un aumento en los niveles de bajo a alto en A, la 
velocidad de inyeccion, ocasiona un incremento del derrame. Sucede lo mismo para 
B. Sin embargo, debido a la interaction significativa AB , las interpretaciones del 
efecto principal se ven como tendencias a traves de los niveles de los demas factores. 
El impacto de la interaction AB significativa se entiende mejor si se emplea una 
tabla de medias de dos factores. 

Interpretation de la interaccion de dos factores 

Como se esperari'a, una tabla de medias de dos factores deberfa facilitar la interpre- 
tation de la interaccion AB. Considere la situation de dos factores de la tabla 15.7. 


Tabla 15.7: Ilustracion de la interaccion de dos factores 



B (temperatura) 

A (velocidad) 

100 

150 

2 

73.355 

97.205 

1 

74.1975 

75.240 


Note que la media muestral grande a velocidad y temperatura elevadas creo la 
interaccion significativa. El derrame se incrementa en forma no aditiva. La 
temperatura del molde parece tener un efecto positivo a pesar del nivel de velocidad. 
Sin embargo, el efecto es el mayor a velocidad elevada. El efecto de la velocidad es 
muy ligero a temperaturas bajas; pero es claramente positivo para una temperatu- 
ra alta del molde. Para controlar el derrame a bajo nivel, deberia evitarse el uso 
simultaneo de una velocidad alta de inyeccion y una temperatura del molde elevada. 
Todos estos resultados se ilustran en forma grafica en la figura 15.7. 
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The GLM Procedure 


Dependent Variable 

: y 

Sum of 




Source 

DF 

Squares 

Mean Square 

F Value 

Pr > F 

Model 

10 

1689.237462 

168.923746 

9.37 

0.0117 

Error 

5 

90.180831 

18.036166 



Corrected Total 

15 

1779.418294 





R-Square Coeff Var Root MSE y Mean 


0.949320 

5. 

.308667 

Source 

DF 

Type III SS 

A 

1 

446.1600062 

B 

1 

619.6365563 

C 

1 

23.3047563 

D 

1 

18.3826563 

A*B 

1 

520.1820562 

A*C 

1 

6.3630063 

A*D 

1 

13.3042562 

B*C 

1 

13.1950562 

B*D 

1 

20.7708062 

C*D 

1 

7.9383063 


246901 79.99938 


Mean Square 

F Value 

Pr > F 

446.1600062 

24.74 

0.0042 

619.6365563 

34.36 

0.0020 

23.3047563 

1.29 

0.3072 

18.3826563 

1.02 

0.3590 

520.1820562 

28.84 

0.0030 

6.3630063 

0.35 

0.5784 

13.3042562 

0.74 

0.4297 

13.1950562 

0.73 

0.4314 

20.7708062 

1.15 

0.3322 

7.9383063 

0.44 

0.5364 


Standard 


Parameter 

Estimate 

Error 

t Value 

Pr > I t I 

Intercept 

79.99937500 

1.06172520 

75.35 

<.0001 

A 

5.28062500 

1.06172520 

4.97 

0.0042 

B 

6.22312500 

1.06172520 

5.86 

0.0020 

C 

1.20687500 

1.06172520 

1.14 

0.3072 

D 

1.07187500 

1.06172520 

1.01 

0.3590 

A*B 

5.70187500 

1.06172520 

5.37 

0.0030 

A*C 

0.63062500 

1.06172520 

0.59 

0.5784 

A*D 

-0.91187500 

1.06172520 

-0.86 

0.4297 

B*C 

0.90812500 

1.06172520 

0.86 

0.4314 

B*D 

-1.13937500 

1.06172520 

-1.07 

0.3322 

C*D 

0.70437500 

1.06172520 

0.66 

0.5364 


Figura 15.6: Salida del SAS para los datos del estudio de caso del ejemplo 15.2. 


Ej ercicios 


15.1 Los siguientes datos se obtuvieron de un expe- 
rimento factorial 2 3 que se repitio tres veces. Con el 
metodo del contraste, evalue las sumas de los cuadra- 
dos para todos los efectos factoriales. Saque sus con- 
clusiones. 

Combinacion 


de tratamientos 

Rep 1 

Rep 2 

Rep 3 

(1) 

12 

19 

10 

a 

15 

20 

16 

b 

24 

16 

17 


Combinacion 

de tratamientos Rep 1 Rep 2 Rep 3 


ab 

23 

17 

27 

c 

17 

25 

21 

ac 

16 

19 

19 

be 

24 

23 

29 

abc 

28 

25 

20 


15.2 En un experimento efectuado por el Departa- 
mento de Ingenierfa de Minas del Instituto Politecnico y 
Universidad Estatal de Virginia, para estudiar un sistema 


Ejercicios 
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Figura 15.7: Grafica de la interaction para el ejemplo 15.2. 


de filtrado particular para carbon, se agrego un coagu- 
lante a la solution en un tanque que contem'a carbon y 
sedimentos, que luego se puso en un sistema de recircula- 
tion para que el carbon se lavara. Tres factores variaron 
en el proceso experimental: 

Factor A: Porcentaje de solidos circulados 

inicialmente en el flujo hacia adelante. 

Factor B: Tasa de flujo del polfmero. 

Factor C: pH del tanque. 

La cantidad de solidos en el flujo inferior del sistema 
de purification determina que tan limpio ha quedado 
el carbon. Se emplearon dos niveles de cada factor y 
se hicieron dos corridas experimentales para cada una 
de las 2 3 = 8 combinaciones. Las respuestas, solidos 
porcentuales por peso, en el flujo inferior del sistema de 
circulation, se especifican en la tabla siguiente: 


Combination de Respuesta 


tratamientos 

Replication 1 

Replication 2 

(1) 

4.65 

5.81 

a 

21.42 

21.35 

b 

12.66 

12.56 

ab 

18.27 

16.62 

c 

7.93 

7.88 

ac 

13.18 

12.87 

be 

6.51 

6.26 

abc 

18.23 

17.83 


Si se supone que todas las interacciones son potencial- 
mente importantes, haga un analisis completo de los 
datos. Use valores P en la conclusion. 

15.3 En un experimento metalurgico se desea probar 
el efecto de cuatro factores y sus interacciones sobre la 
concentration (peso en porcentaje) de cierto compuesto 


particular de fosforo en el material de fundicion. Las 
variables son A, porcentaje de fosforo en la refinacion; 
B , porcentaje del material vuelto a fundir; C, tiempo 
de flujo; y D, tiempo de espera. Se varfan los cuatro 
factores en un experimento factorial 2 4 con dos fundi- 
ciones tomadas a cada combination de factores. Las 
32 fundiciones se hicieron en orden aleatorio. La tabla 
siguiente muestra los datos y la tabla anova se da en la 
figura 15.8 de la pagina 626. Analice los efectos de los 
factores y sus interacciones sobre la concentration del 
compuesto de fosforo. 


Peso 

Porcentaje de compuesto 


Combination de 
tratamientos 


de fosforo 


Rep 1 

Rep 2 

Total 

(1) 

30.3 

28.6 

58.9 

a 

28.5 

31.4 

59.9 

b 

24.5 

25.6 

50.1 

ab 

25.9 

27.2 

53.1 

c 

24.8 

23.4 

48.2 

ac 

26.9 

23.8 

50.7 

be 

24.8 

27.8 

52.6 

abc 

22.2 

24.9 

47.1 

d 

31.7 

33.5 

65.2 

ad 

24.6 

26.2 

50.8 

bd 

27.6 

30.6 

58.2 

abd 

26.3 

27.8 

54.1 

cd 

29.9 

27.7 

57.6 

acd 

26.8 

24.2 

51.0 

bed 

26.4 

24.9 

51.3 

abed 

26.9 

29.3 

56.2 

Total 

428.1 

436.9 

865.0 

15.4 Se realizo un 

experimento preliminar para estu- 


diar los efectos de cuatro factores y sus interacciones 
sobre la salida de cierta operation de maquinado. Se hi- 
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cieron dos corridas en cada una de las combinaciones de 
tratamientos para obtener una medida del error experi- 
mental puro. Se emplearon dos niveles de cada factor, y 
se obtuvieron los datos que se muestran en seguida. 
Efectue pruebas sobre todos los efectos principales y las 
interacciones al nivel de significancia de 0.05. Saque sus 
conclusiones. 

Combination de 


tratamiento 

Replica 1 

Replica 2 

(1) 

7.9 

9.6 

a 

9.1 

10.2 

b 

8.6 

5.8 

c 

10.4 

12.0 

d 

7.1 

8.3 

ab 

11.1 

12.3 

ac 

16.4 

15.5 

ad 

7.1 

8.7 

be 

12.6 

15.2 

bd 

4.7 

5.8 

cd 

7.4 

10.9 

abc 

21.9 

21.9 

abd 

9.8 

7.8 

acd 

13.8 

11.2 

bed 

10.2 

11.1 

abed 

12.8 

14.3 


15.5 En el estudio An X-Ray Fluorescence Method for 
Analyzing Polybutadiene-Acrylic Acid (PBAA) Prope- 
llants , Quarterly Reports, RK-TR-62-1, Army Ordnan- 
ce Missile Command, se realizo un experimento para 
determinar si hay o no una diferencia significativa en 
la cantidad de aluminio alcanzado en el analisis entre 
ciertos niveles de algunas variables de procesamiento. 
En la tabla que sigue se presentan los datos registra- 
dos. 


Tiempo Veloci- Condi- 

Estado de mez- dad de cion de Alu- 

Obs. ffsico clado las aspas nitrogeno minio 


1 

1 

1 

2 

2 

16.3 

2 

1 

2 

2 

2 

16.0 

3 

1 

1 

1 

1 

16.2 

4 

1 

2 

1 

2 

16.1 

5 

1 

1 

1 

2 

16.0 

6 

1 

2 

1 

1 

16.0 

7 

1 

2 

2 

1 

15.5 

8 

1 

1 

2 

1 

15.9 

9 

2 

1 

2 

2 

16.7 

10 

2 

2 

2 

2 

16.1 

11 

2 

1 

1 

1 

16.3 

12 

2 

2 

1 

2 

15.8 

13 

2 

1 

1 

2 

15.9 

14 

2 

2 

1 

1 

15.9 

15 

2 

2 

2 

1 

15.6 

16 

2 

1 

2 

1 

15.8 


A continuation se dan las variables. 

A: Tiempo de mezclado 

nivel 1-2 horas 
nivel 2-4 horas 


B: Velocidad de las aspas 
nivel 1-36 rpm 
nivel 2-78 rpm 

C: Condition de nitrogeno pasado sobre el com- 

bustible 
nivel 1-seco 

nivel 2-72% de humedad relativa 
D\ Estado ffsico del combustible 
nivel 1-no refinado 
2-refinado 

Haga el analisis de los datos si se supone que todas las 
interacciones de tres y cuatro factores son desprecia- 
bles. Utilice un nivel de significancia de 0.05. Escriba 
un breve informe que resuma sus descubrimientos. 

15.6 Es importante estudiar el efecto de la concen- 
tration del reactivo y la tasa de alimentation de la vis- 
cosidad del producto de cierto proceso qufmico. La 
concentration del reactivo sera el factor A a los niveles 
15 y 25%. La tasa de alimentation sera el factor B con 
niveles de 20 lb/h y 30 Ib/h. El experimento implica 
2 corridas experimentales en cada una de las cuatro 
combinaciones (L = bajo y H = alto). Las lecturas de 
la viscosidad son las siguientes. 


132 

149 

137 

152 

145 

154 

147 

150 

L 

H 


A 

a) Suponga un modelo que contenga dos efectos princi- 
pales y una interaction; calcule los tres efectos. ^Tiene 
usted alguna interpretation en este momento? 

b) Realice un analisis de varianza y haga pruebas para 
la interaction. De sus conclusiones. 

c) Realice pruebas para los efectos principales y de sus 
conclusiones finales acerca de la importancia de to- 
dos estos efectos. 

15.7 Considere de nuevo el ejercicio 15.3. Para el in- 
vestigador es de interes saber que no solo las interac- 
ciones AD, BC y quiza AB son importantes. Aunque 
tambien es de interes lo que significan de manera cien- 
tffica. Muestre la grafica de interaction bidemensional 
para las tres y de su interpretation. 

15.8 Considere de nuevo el ejercicio 15.3. Es fre- 
cuente que las interacciones de tres factores no sean 
significativas y, aun si lo fueran, serfan dificiles de in- 
terpretar. La interaction ABD parece ser importante. 
Para obtener algun sentido de interpretation, haga dos 
graficas de la interaction AD, una para B = — 1 y otra 
para B = +1. A partir de la apariencia de estas, de una 
interpretation de la interaction ABD. 


15.5 Experimentos factoriales en la preparacion de la regresion 
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15.9 Considere el ejercicio 15.6. Utilice una escala de 
“+1” y “—1”, para “alto” y “bajo”, respectivamente, y 
realice una regresion lineal multiple con el modelo 

Yi = Po + PlXli + @2X2i + Pl2XliX2i + £i, 

con xu, = concentracion del reactivo (—1, +1) y *2 i = 
tasa de alimentation (—1, +1). 

а) Calcule los coeficientes de regresion. 

б ) i,Como se relacionan los coeficientes 61, 62 y &12 
con los efectos que el lector encontro en el ejercicio 
15.6a)? 

c) En su analisis de regresion haga pruebas t sobre 61, 
b2 y b\2- ^Como se relacionan estos resultados de la 
prueba con aquellos del ejercicio 15.66) y c)? 

15.10 Considere el ejercicio 15.5. Calcule los 15 efec- 
tos y haga graficas de probabilidad normal de los 
efectos. 

а) ^Parece valida la suposicion de que son desprecia- 
bles las interacciones de tres y cuatro factores? 

б) ^Los resultados de las graficas del efecto son consis- 
tentes con lo que el lector concluyo sobre la impor- 
tancia de los efectos principales y las interacciones 
de dos factores, en su informe de resumen? 

15.11 En Myers y Montgomery (2002), se analiza un con- 
junto de datos para el que un ingeniero empleo un facto- 
rial 2 3 para estudiar los efectos de la velocidad de corte 
(^4) , la geometria de la herramienta ( B ) y el angulo de 
corte ( C ), sobre la vida (en horas) de una maquina herra- 
mienta. Se eligen dos niveles de cada factor, y se corrie- 
ron duplicados en cada punto del diseno en un orden 
aleatorio. A continuation se presentan los datos. 

а) Calcule los siete efectos. ^Con base en su magnitud, 
cual parece ser importante? 

б) Haga un analisis de varianza y observe los valores P. 
c) ^Concuerdan los resultados de los incisos a) y 6)? 


d) El ingeniero tiene confianza en que deben interac- 
tuar la velocidad y el angulo de corte en que se 
hacen. Si esta interaction es significativa, haga una 
grafica de la interaction y analice el significado de la 
interaction desde el punto de vista de la ingenieria. 



A 

B 

C 

Vida 

(1) 

— 

— 

— 

22, 31 

a 

+ 

- 

- 

32, 43 

b 

— 

+ 

- 

35, 34 

ab 

+ 

+ 

- 

35, 47 

c 

- 

— 

+ 

44, 45 

ac 

+ 

— 

+ 

40, 37 

be 

— 

+ 

+ 

60, 50 

abc 

+ 

+ 

+ 

39, 41 


15.12 Considere el ejercicio 15.11. Suponga que hubo 
cierta dificultad experimental para hacer las corridas. 
En realidad, todo el experimento tuvo que ser detenido 
despues de solo cuatro corridas. Como resultado, el ex- 
perimento abreviado esta dado por 

Vida 


a 

43 

b 

35 

c 

44 

abc 

39 


Con solo estas corridas, los signos para los contrastes 
estan dados por 



A 

B 

C 

AB 

AC 

BC 

ABC 

a 

+ 

— 

— 

— 

— 

+ 

+ 

b 

- 

+ 

~ 

- 

+ 

- 

+ 

c 

- 

- 

+ 

+ 

- 

- 

+ 

abc 

+ 

+ 

+ 

+ 

+ 

+ 

+ 


Haga comentarios. Como parte de ellos, determine si 
los contrastes son ortogonales o no. ^Cuales lo son y 
cuales no? /.Los efectos principales son ortogonales en- 
tre sf? En ese experimento abreviado (titulado factorial 
fraccionario ) , £se puede estudiar las interacciones en 
forma independiente de los efectos principales? ^Un ex- 
perimento es util si se esta convencido de que las inte- 
racciones son despreciables? Explique su respuesta. 


15.5 Experimentos factoriales en la preparacion de la regresion 

En gran parte de este capftulo 15, nuestro analisis de los datos para un factorial 
2 k se ha limitado hasta este momento al metodo del analisis de varianza. La unica 
referenda a un analisis alternativo se hizo en el ejercicio 15.9 de esta pagina. En rea- 
lidad, ese ejercicio introduce mucho de lo que es la motivation de la presente section. 
Hay situaciones donde el ajuste del modelo es importante y pueden controlarse 
los factores que se estudian. Por ejemplo, un biologo podrfa querer estudiar el creci- 
miento de cierto tipo de alga en el agua, y en ese caso serfa muy util un modelo que 
relacionara las unidades de algas como funcion de la cantidad de cierto contaminan- 
te, y, digamos, el tiempo. Asf, el estudio requiere un experimento factorial en una 
preparacion de laboratorio, en el que los factores son la concentracion del conta- 
minante y el tiempo. Como se vera mas adelante en esta section, puede ajustarse un 


626 


Capitulo 15 Experimentos factoriales 2 k y fracciones 


Fuente de 
variacion 

Efectos 

Suma de 
cuadrados 

Grados de 
cuadrado 

Libertad 

media 

/ 

calculada 

Valor P 

Efecto principal : 







A 

-1.2000 

11.52 

1 

11.52 

4.68 

0.0459 

B 

-1.2250 

12.01 

1 

12.01 

4.88 

0.0421 

C 

-2.2250 

39.61 

1 

39.61 

16.10 

0.0010 

D 

1.4875 

17.70 

1 

17.70 

7.20 

0.0163 

Interaccion de dos factores : 







AB 

0.9875 

7.80 

1 

7.80 

3.17 

0.0939 

AC 

-0.6125 

3.00 

1 

3.00 

1.22 

0.2857 

AD 

-1.3250 

14.05 

1 

14.05 

5.71 

0.0295 

BC 

1.1875 

11.28 

1 

11.28 

4.59 

0.0480 

BD 

0.6250 

3.13 

1 

3.13 

1.27 

0.2763 

CD 

0.7000 

3.92 

1 

3.92 

1.59 

0.2249 

Interaccion de tres factores : 







ABC 

-0.5500 

2.42 

1 

2.42 

0.98 

0.3360 

ABD 

1.7375 

24.15 

1 

24.15 

9.82 

0.0064 

ACD 

1.4875 

17.70 

1 

17.70 

7.20 

0.0163 

BCD 

-0.8625 

5.95 

1 

5.95 

2.42 

0.1394 

Interaccion de cuatro factores : 







ABCD 

0.7000 

3.92 

1 

3.92 

1.59 

0.2249 

Error 


39.36 

16 

2.46 



Total 


217.51 

31 





Figura 15.8: Tabla anova para el ejercicio 15.3. 


modelo mas preciso si los factores estan controlados en un arreglo factorial, para 
el que con frecuencia es util la seleccion de un factorial 2 k . En muchos procesos 
biologicos y quimicos, los niveles de las variables regresoras pueden y deberian con- 
trolarse. 

Hay que recordar que el modelo de regresion empleado en el capitulo 12 puede 
escribirse con notation matricial como: 


y = X/3 + e. 

La matriz X se denomina matriz del modelo. Por ejemplo, suponga que se emplea 
un experimento factorial 2 3 con las variables 

Temperatura: 150 °C 200 °C 

Humedad 15% 20% 

Presion (psi): 1000 1500 

Los niveles familiares +1 y —1 se generan a traves de centrar y dar escala a las si- 
guientes unidades de diseno : 


Xi 


temperatura — 175 
25 


X2 


humedad — 17.5 
215 


*3 


presion — 1250 
250 
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Ejemplo 15.3: 


Solucion: 


Como resultado, la matriz X resulta ser la siguiente 


X = 



Xi 

X 2 

X3 

Identification pf 

1 

-1 

-1 

-1 ' 

(1) 

1 

1 

-1 

-1 

a 

1 

-1 

1 

-1 

b 

1 

-1 

-1 

1 

c 

1 

1 

1 

-1 

ab 

1 

1 

-1 

1 

ac 

1 

-1 

1 

1 

be 

1 

1 

1 

1 

abc 


Ahora se observa que los contrastes ilustrados y analizados en la seccion 15.2 estan 
relacionados directamente con los coeficientes de regresion. Observe que todas las 
columnas de la matriz X en el ejemplo 2 3 , son ortogonales. Como resultado, el calcu- 
lo de los coeficientes de regresion que se describio en la seccion 12.3 se convierte en 


b = 


bo 

h 

b 2 

b 3 


(X / X) _1 X , y 



X'y 


1 

8 


a + ab + ac + abc + ( 1 ) + b + c + be 
a + ab + ac + abc — ( 1 ) — b — c — be 
b + ab + be + abc — ( 1 ) — a — c — ac 
c + ac + be + abc — ( 1 ) — a — b — ab 


donde a, ab , etcetera, son mediciones de las respuestas. 

Se observa que la notion de principales efectos calculados , de los que se ha hecho 
entasis en todo este capitulo, con 2 k factoriales, se relaciona con los coeficientes de 
un modelo de ajuste por regresion cuando los factores son cuantitativos. En realidad, 
para un 2 k con, digamos, n corridas experimentales por punto de diseno, las relacio- 
nes entre los efectos y los coeficientes de regresion son como sigue: 


Efecto 

Coeficiente de regresion 


contraste 

2 fc - 1 (n) 

contraste 


2 k {n) 


efecto 

2 


Esta relation debena tener sentido para el lector, ya que un coeficiente de regresion 
bj es una tasa de cambio promedio en respuesta por unidad de cambio de Xj. Por 
supuesto, cuando se va de —1 a +1 en Xj (bajo a alto), la variable de diseno ha 
cambiado en 2 unidades. 


Considere un experimento donde un ingeniero desea ajustar una regresion lineal del 
producto y contra el tiempo de espera X\ y el tiempo de doblado X2 en cierto siste- 
ma qufmico. Tod os los demas factores se mantienen fijos. Los datos en las unidades 
naturales se dan en la tabla 15.8. Estime el modelo de regresion lineal multiple. 
Como resultado, el modelo de regresion ajustada es 


y = b 0 + bixi + b 2 x 2 - 
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Tabla 15.8: Datos para el ejemplo 15.3 


Tiempo de espera (h) 

Tiempo de doblado (h) 

Producto (%) 

0.5 

0.10 

28 

0.8 

0.10 

39 

0.5 

0.20 

32 

0.8 

0.20 

46 


Las unidades de diseno son 


Xi 


tiempo de espera — 0.65 
015 


X 2 


tiempo de doblado — 0.15 
0115 


y la matriz X es 


X\ X2 

'1 -1 -1 
1 1-1 
1-1 1 
111 

con los coeficientes de regresion 


bo 



(l)+a+6+a6 

4 


[36.25] 

bi 
b 2 _ 

= (X'X) 

II 

>> 

'X 

H 

1 

a+ab— (1) — b 

4 

b+ab— (1)— a 

4 

— 

6.25 

2.75 


Asf, la ecuacion de regresion de mmimos cuadrados es 

y = 36.25 + 6. 25x x +2.75x 2 . 

Este ejemplo proporciona una ilustracion del uso del experimento factorial de dos 
niveles en un planteamiento de regresion. Las cuatro corridas experimentales en el 
diseno 2 2 se usaron para obtener una ecuacion de regresion, con la interpretation 
evidente de los coeficientes de regresion. El valor bi = 6.25 representa el incremento 
estimado de la respuesta (salida porcentual) por unidad de diseno que cambia (0.15 
horas) el tiempo de espera. El valor b 2 = 2.75 representa una tasa de cambio similar 
para el tiempo de doblado. 


Interaction en el modelo de regresion 

Los contrastes de las interacciones que se estudiaron en la section 15.2, tienen in- 
terpretaciones definidas en el contexto de la regresion. En realidad, las interacciones 
son tomadas en cuenta en los modelos de regresion mediante los terminos que son 
productos. Esto se ilustra con el ejemplo 15.3, en el cual el modelo con interaction es 

y = b 0 + bixi + b 2 x 2 + b 12 x x x 2 

con &o, bi y b 2l como antes, y 


ab + (1) — a — b 

012 = 


46 + 28 - 39 - 32 


0.75. 


4 


4 
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Asf, la ecuacion de regresion que expresa dos efectos principales lineales e interac- 
tion, es 


y = 36.25 + 6.25a;i, + 2 . 75 x 2 + 0 . 75 xiX 2 . 

El contexto de la regresion proporciona un marco de referencia con el cual el lector 
deberia entener mejor la ventaja de la ortogonalidad de que se disfruta con el facto- 
rial 2 k . En la seccion 15.2, los meritos de la ortogonalidad se analizan desde el punto 
de vista del analisis de la varianza de los datos en un experimento factorial 2 k . Se 
aclaro que la ortogonalidad entre los efectos conduce a la independencia entre las 
sumas de los cuadrados. Por supuesto, la presencia de variables de regresion no rige 
el uso del analisis de varianza. De hecho, las pruebas F se llevan a cabo tal como se 
describio en la seccion 15.2. Salta a la vista que debe hacerse una distincion. En el 
caso del anova, las hipotesis evolucionan a partir de medias poblacionales; en tanto 
que en el caso de la regresion las hipotesis implican coeficientes de regresion. 

Por ejemplo, considere el diseno experimental del ejercicio 15.2 de la pagina 622. 
Cada factor es continuo y suponga que los niveles son los siguientes 

A (xi): 20% 40% 

B \x 2 )'- 5 lb/seg 10 lb/seg 

C (x 3 ): 5 5.5 

y que se tiene, para los niveles de diseno, 

(solidos — 30) (tasa de flujo — 7.5) (pH — 5.25) 

Xl = 10 ’ 2:2 = 2A ’ 13 = 025 ' 

Suponga que es de interes ajustar un modelo de regresion multiple, en el cual tengan 
que considerarse todos los coeficientes lineales y las interacciones disponibles. Ade- 
nitis, al ingeniero le interesa dar alguna perspectiva acerca de que niveles del factor 
maximizaran la limpieza (es decir, maximizar la respuesta). Este problema sera un 
estudio de caso en el ejemplo 15.4. 


Ejemplo 15.4:1 Estudio de caso: Experimento de limpieza de carbon 1 La figura 15.9 repre- 
senta una salida anotada por computadora para el analisis de regresion del modelo 
ajustado 

y = b 0 + 61 X 1 + b 2 x 2 + 53*3 + 6 i 2 XiX 2 + 613 X 1 X 3 + 623 * 2 X 3 + 6123 X 1 X 2 X 3 , 

donde xi, X 2 y x 3 son solidos porcentuales, tasa de flujo y pH del sistema, respecti- 
vamente. El sistema de computo que se uso es el SAS proc reg. 

En la salida, observe los estimadores del parametro, el error estandar y los valo- 
res P. Los estimadores del parametro representan los coeficientes del modelo. Todos 
estos son significativos, excepto el termino X 2 X 3 (interaction BC). Tambien note que 
los residuos, los intervalos de confianza y los intervalos de prediction aparecen segiin 
se estudiaron en el material sobre regresion de los capftulos 11 y 12 . 

El lector puede usar los valores de los coeficientes del modelo y pronosticar otros 
valores a partir de la salida, para asegurarse de que la combination de los factores 
de como resultado la eflciencia maxima de limpieza. El factor A (solidos porcen- 
tuales circulados) tiene un coeficiente positivo grande, lo cual sugiere que un valor 
elevado para los solidos porcentuales. Adenitis, se sugiere un valor bajo para el factor 
C (pH del tanque). Aunque el coeficiente del efecto principal B (tasa de flujo del 


1 Vease el ejercicio 15.2. 
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Dependent Variable: Y 




Analysis of 

Variance 





Sum of 

Mean 



Source 


DF Squares 

Square 

F Value 

Pr > F 

Model 


7 490.23499 

70.03357 

254.43 

<.0001 

Error 


8 2.20205 

0.27526 



Corrected 

Total 

15 492.43704 




Root MSE 


0.52465 R-Square 

0.9955 


Dependent 

Mean 

12.75188 Adj 

R-Sq 

0.9916 


Coeff Var 


4.11429 






Parameter Estimates 






Parameter 

Standard 






Variable DF 

Estimate 

Error 

t Value 

Pr > It I 




Intercept 1 

12.75188 

0.13116 

97.22 

<.0001 




A 

1 

4.71938 

0.13116 

35.98 

<.0001 




B 

1 

0.86563 

0.13116 

6.60 

0.0002 




C 

1 

-1.41563 

0.13116 

-10.79 

<.0001 




AB 

1 

-0.59938 

0.13116 

-4.57 

0.0018 




AC 

1 

-0.52813 

0.13116 

-4.03 

0.0038 




BC 

1 

0.00562 

0.13116 

0.04 

0.9668 




ABC 

1 

2.23063 

0.13116 

17.01 

<.0001 





Dependent 

Predicted 

Std Error 






Obs 

Variable 

Value Mean Predict 

957. CL 

Mean 

957. CL 

Predict 

Residual 

1 

4.6500 

5 . 2300 

0.3710 

4.3745 

6.0855 

3.7483 

6.7117 

-0.5800 

2 

21.4200 

21.3850 

0.3710 

20.5295 

22.2405 

19.9033 

22.8667 

0.0350 

3 

12.6600 

12.6100 

0.3710 

11.7545 

13.4655 

11.1283 

14.0917 

0.0500 

4 

18.2700 

17.4450 

0.3710 

16.5895 

18.3005 

15.9633 

18.9267 

0.8250 

5 

7.9300 

7.9050 

0.3710 

7 . 0495 

8.7605 

6.4233 

9.3867 

0.0250 

6 

13.1800 

13.0250 

0.3710 

12.1695 

13.8805 

11.5433 

14.5067 

0.1550 

7 

6.5100 

6 . 3850 

0.3710 

5.5295 

7 . 2405 

4.9033 

7.8667 

0.1250 

8 

18.2300 

18.0300 

0.3710 

17.1745 

18.8855 

16.5483 

19.5117 

0.2000 

9 

5.8100 

5.2300 

0.3710 

4.3745 

6.0855 

3.7483 

6.7117 

0.5800 

10 

21.3500 

21.3850 

0.3710 

20.5295 

22.2405 

19.9033 

22.8667 

-0.0350 

11 

12.5600 

12.6100 

0.3710 

11.7545 

13.4655 

11.1283 

14.0917 

-0.0500 

12 

16.6200 

17.4450 

0.3710 

16.5895 

18.3005 

15.9633 

18.9267 

-0.8250 

13 

7.8800 

7.9050 

0.3710 

7.0495 

8.7605 

6.4233 

9.3867 

-0.0250 

14 

12.8700 

13.0250 

0.3710 

12.1695 

13.8805 

11.5433 

14.5067 

-0.1550 

15 

6.2600 

6.3850 

0.3710 

5.5295 

7.2405 

4.9033 

7.8667 

-0.1250 

16 

17.8300 

18.0300 

0.3710 

17.1745 

18.8855 

16.5483 

19.5117 

-0.2000 


Figura 15.9: Salida del SAS para los datos del ejemplo 15.4. 


polfmero) es positivo, el coeficiente positivo aun mas grande de X 1 X 2 X 3 ( ABC) su- 
geriri'a que la tasa de flujo deberi'a estar en el nivel bajo con la finalidad de mejorar 
la eficiencia. Ann mas, el modelo de regresion generado en la salida del SAS sugiere 
que la combination de factores que producen resultados optimos, o quiza sugieran la 
direction para la experimentation adicional, esta dada por 
A: nivel alto 
B: nivel bajo 
C: nivel bajo 
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15.6 El diseno ortogonal 

En situaciones experimentales en las que es apropiado ajustar modelos que son li- 
neales en las variables de diseno, y posiblemente impliquen interacciones o terminos 
que son productos, existen ventajas que surgen del diseno ortogonal de dos niveles, o 
arreglo ortogonal, que quiere decir que hay ortogonalidad entre las columnas de la 
matriz X. Considere la matriz X para el factorial 2 2 del ejemplo 15.3. Note que las 
tres columnas son mutuamente ortogonales. La matriz X del factorial 2 3 tambien 
contiene columnas ortogonales. El factorial 2 3 con interacciones produciria una ma- 
triz X del tipo 



Xi 

X 2 

X 3 

X ! X 2 

X1X3 

X2X3 

X1X2X3 

1 

-1 

-1 

-1 

1 

1 

1 

-1 ' 

1 

1 

-1 

-1 

-1 

-1 

1 

1 

1 

-1 

1 

-1 

-1 

1 

-1 

1 

1 

-1 

-1 

1 

1 

-1 

-1 

1 

1 

1 

1 

-1 

1 

-1 

-1 

-1 

1 

1 

-1 

1 

-1 

1 

-1 

-1 

1 

-1 

1 

1 

-1 

-1 

1 

-1 

1 

1 

1 

1 

1 

1 

1 

1 



El panorama de los grados de libertad es 


Fuente g.l. 

Regresion 3 

Falta de ajuste 4 

Error (puro) 8 

Total 15 


(X 1 X 2 , X1X3, X2X3 , X1X2X3) 


Los ocho grados de libertad para el error puro se obtienen a partir de las corridas 
duplicadas en cada punto del diseno. La falta de ajuste de los grados de libertad 
puede verse como la diferencia entre el numero de puntos de diseno distintos y el 
numero total de terminos en el modelo; en este caso, hay 8 puntos y 4 terminos en 
el modelo. 


Error estandar de los coeficientes y pruebas t 

En las secciones anteriores vimos como el analista de un experimento puede apro- 
vechar el concepto de ortogonalidad para disehar un experimento de regresion, con 
coeficientes que tengan varianza minima sobre la base del costo. Se debe ser capaz 
de utilizar el conocimiento de la regresion que se expuso en la section 12.4 para calcu- 
lar estimadores de las varianzas de los coeficientes y, con ello, los errores estandar. 
Tambien resulta de interes resaltar la relation entre el estadfstico t sobre un coefi- 
ciente y el estadfstico F descrito e ilustrado en capftulos anteriores. 

Recuerde el lector que en la section 12.4 se vio que las varianzas y las covarianzas 
de los coeficientes aparecen en la matriz d , o, en terminos de la notation actual, 
la matriz de varianza-covarianza de coeficientes es 

<r 2 A - 1 = £7 2 (X , X)“ 1 . 

En el caso del experimento factorial 2 fc , las columnas de X son mutuamente ortogonales, 
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Ejemplo 15.5: 


Solucion: 


lo que impone una estructura muy especial. En general, para 2 k se tiene que 

X \ X 2 ■ ■ ■ Xk x \ x 2 ■ ■ ■ 

X=[l ±1 ±1 ±1 ±1 

donde cada columna contiene 2 k entradas o 2 k n, donde n es el numero de corridas 
repetidas en cada punto del diseno. Asf, la formation de X'X lleva a 

X'X = 2 k nl p , 

donde I es la matriz de identidad de la dimension p , el numero de parametros del 
modelo. 


Considere un 2 3 con corridas por duplicado que se ajusta al modelo 

E(Y) — l3 0 + Pixi + /3 2 x 2 + fax 3 + (3i 2 xix 2 + (3i 3 xix 3 + /3 23 x 2 x 3 . 

De expresiones para los errores estandar de los estimadores de mmimos cuadrados 
de bo, b\, b 2 , b 3 , b 32 , b 13 y b 23 . 



X \ 

x 2 

x 3 

XiX 2 

XxX 3 

X 2 X 3 

1 

-1 

— 1 

— 1 

1 

1 

1 " 

1 

1 

— 1 

— 1 

-1 

-1 

1 

1 

-1 

1 

-1 

-1 

1 

-1 

1 

-1 

-1 

1 

1 

-1 

-1 

1 

1 

1 

-1 

1 

-1 

-1 

1 

1 

-1 

1 

-1 

1 

-1 

1 

-1 

1 

1 

-1 

-1 

1 

1 

1 

1 

1 

1 

1 

1 


con cada unidad vista como repetida (es deicr, cada observacion esta duplicada). 
Como resultado, 

X'X = 16I 7 . 


Asf, 


(X'X)” 1 


16 


L 7- 


De lo anterior, queda claro que las varianzas de todos los coeficientes para un facto- 
rial 2 k con n corridas en cada punto de diseno son 


Var(bj) 


2 k n ’ 


y, por supuesto, todas las covarianzas son igual a cero. Como resultado, los errores 
estandar de los coeficientes se calculan como 


s bj = s 



donde s se encuentra con la rafz cuadrada del error cuadratico medio (se tiene la 
esperanza de obtenerlo a partir de una repetition adecuada). Asf, en nuestro caso 
de 2 3 , 


s 6 , = s 
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Ejemplo 15.6:1 Considere el experimento de la metalurgia del ejercicio 15.3 de la pagina 623. Supon- 
ga que el modelo ajustado es 

E(Y) =/3 0 + P\xi + j3 2 x 2 + p 3 x 3 + (3 4 x 4 + Pi 2 xix 2 + fi\ 3 x 4 x 3 
+ /3 44 xix 4 + /3 23 x 2 x 3 + /3 24 x 2 x 4 + /3 34 x 3 x 4 >. 

^Cuales son los errores estandar de los coeficientes de regresion de mmirnos cuadra- 
dos? 

Solucion: Los errores estandar de todos los coeficientes para el factorial 2 k son iguales, y son 



que en esta ilustracion es 


Sbj ^4 


(16)(2) 


En este caso, el error cuadratico medio puro esta dado por s 2 = 2.46 (16 grados de 
libertad). Entonces, 


s b] = 0.28. 

Los errores estandar de los coeficientes se usan para construir estadisticos t sobre 
todos los coeficientes. Estos valores t se relacionan con los estadisticos F del analisis 
de varianza. Ya se demostro que un estadistico F sobre un coeficiente, usando el 
factorial 2 fe , es 


(contraste) 2 
(2 k ){n)s 2 

Esta es la forma del estadistico F de la pagina 626 para el experimento de metalurgia 
(vease el ejercicio 15.3). Es facil comprobar que si se escribe 

bn contraste 

t = cuando o, = ; , 

s bj 2 k n 

entonces 

2 (contraste) 2 

s 2 2 k n J 

Como resultado, la relacion usual se cumple entre estadisticos t sobre los coeficien- 
tes y los valores F. Como era de esperar, la unica diferencia en el uso de t o F para 
estudiar la significancia esta en el hecho de que el estadistico t indica el signo o la 
direction del efecto del coeficiente. 

Pareceria que el plan del factorial 2 k se adapta a muchas situaciones practicas 
a las cuales se ajustan modelos de regresion. Alberga terminos lineales y de inter- 
action, lo que da estimadores optimos de todos los coeficientes (desde un punto de 
vista de la varianza). Sin embargo, cuando k es grande, el numero de puntos del 
diseiio requerido es muy grande. Es frecuente que puedan usarse partes del diseiio 
total y todavia haya ortogonalidad, con todas las ventajas que ello implica. En la 
seccion 15.8, a continuation, se estudian tales diseiios. 
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Una mirada mas amplia a la propiedad de ortogonalidad en el factorial 2 k 

Ya vimos que para el caso del factorial 2 k toda la informacion que obtiene el ana- 
lista sobre los efectos y las interacciones principales esta en la forma de contrastes. 
Estas “2 fc_1 piezas de informacion” conllevan un solo grado de libertad cada una y 
son independientes entre si. En un analisis de varianza se manifiestan como efectos ; 
mientras que si lo que se construye es un modelo de regresion, los efectos son los coe- 
ficientes de la regresion, aparte de un factor de 2. Con cada forma de analisis, es posi- 
ble hacer pruebas de significancia y las pruebas t para un efecto dado son las mismas 
en cuanto a los resultados numericos, que para los coeficientes de regresion corres- 
pondientes. En el caso del anova, son importantes la exposition de las variables y la 
interpretation cientffica de las interacciones; en tanto que en el caso de un analisis 
de regresion, se usa un modelo para predecir la respuesta y/o determinar cuales 
combinaciones de nivel de factores son las optimas (es decir, maximizan la salida o 
la eficiencia de la limpieza, como en el estudio de caso del ejemplo 15.4). 

Resulta que la propiedad de ortogonalidad es importante sea que el analisis 
consista en anova o regresion. La ortogonalidad entre las columnas de X, la matriz 
del modelo en, digamos, el ejemplo 15.5, brinda condiciones especiales que tiene 
una influencia importante sobre los efectos de la varianza o los coeficientes de 
regresion. En realidad, ya se ha hecho evidente que el diseho ortogonal da como 
resultado la igualdad de varianza para todos los efectos o coeficientes. Asf, de ese 
modo, para propositos de estimation o de prueba, la precision es la misma para to- 
dos los coeficientes, los efectos principales o las interacciones. Ademas, si el modelo 
de regresion solo contiene terminos lineales y, por ello, solo los efectos principales 
son de interes, las condiciones siguientes dan como resultado la minimization de las 
varianzas de todos los efectos (o, en forma correspondiente, de los coeficientes de 
regresion de primer orden). 


Condiciones para Si el modelo de regresion contiene terminos no mayores de primer orden, y si los 
varianzas mrnimas rangos de las variables estan dados por Xj £ [—1, +1] para j = 1, 2, . . . , k, enton- 

de los coeficientes ces V ar(bf)/a 2 , para j = 1, 2, . . . , k, se minimiza si el diseho es ortogonal y todos 

los niveles x i del diseho son ±1 para i = 1 , 2, . . . , k. 

Asf, en terminos de los coeficientes del modelo o los efectos principales, la orto- 
gonalidad en el 2 fc es una propiedad muy deseable. 

Otro enfoque para lograr una mejor comprension del “balance” proporcionado 
por el 2 3 es el grafico. En la figura 15.10 se aprecian cada uno de los contrastes 
ortogonales y que por esto son mutuamente independientes. Se presentan graficas 
que muestran los pianos de los cuadrados, cuyos vertices contienen las respues- 
tas etiquetadas con “+” y se comparan con las que tienen Las que se dan en el 
inciso a) muestran contrastes para efectos principales y cleberfan ser evidentes para 
el lector. Las del inciso b) presentan los pianos determinados por los vertices “+” y 
” para los tres contrastes de interaction de dos factores. En el inciso c), se aprecia 
la representation geometrica de los contrastes para la interaction de tres factores 
(ABC). 


Corridas centrales con 2 k disenos 

En la situation en que se implanta el diseho 2 k con variables continuas de diseho, 
y se busca ajustar un modelo de regresion lineal, es muy util el uso de corridas re- 
petidas en el diseho central. En realidad, muy aparte de las ventajas que se veran 
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b) Interaccion de dos factores 




+ corridas 

-corridas 


c) Interaccion de tres factores 


Figura 15.10: Presentation geometrica de los contrastes para el diseiio factorial 2 3 . 


a continuation, la mayoria de los cientificos e ingenieros considerarian que las corridas 
centrales (es decir, corridas en Xi = 0 para i = 1,2,..., k) no solo son una practica 
razonable, sino algo que tiene una atraccion intuitiva. En muchas areas de aplica- 
cion del diseiio 2 fc , el cientifico desea determinar si seria benefico pasar a una region 
diferente de interes en cuanto a los factores. En muchos casos, el centro (el punto 
[0, 0 ,..., 0], en los factores codificados) con frecuencia representa las condiciones 
de operation actuales del proceso, o al menos aquellas condiciones que se consideran 
“optimas en ese momento” . De manera que es frecuente el caso que el cientifico re- 
querira datos en la respuesta en el centro. 


Corridas centrales y falta de ajuste 

Ademas de la atraccion intuitiva del aumento del 2 k con corridas centrales, se tiene 
otra ventaja que se relaciona con la clase de modelo que se ajusta a los datos. Por 
ejemplo, considere el lector el caso con k = 2, segun se ilustra en la figura 15.11. 
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A(x,) 


Figura 15.11: Diseno 2 2 con corridas centrales. 


Queda claro que sin las corridas centrales , los terminos del modelo son, ade- 
nitis de la intersection, x±, X 2 , X 1 X 2 ■ Esto es importante para los cuatro grados 
de libertad del modelo distribuidos para los cuatro puntos del diseno, aparte de 
cualquier repeticion. Como cada factor tiene disponible informacion de respuesta 
solo en dos ubicaciones {—1, +1}, en el modelo no tienen cabida terminos “puros” 
de curvatura de segundo orden (es decir, x\ o x |). Pero la informacion en (0, 0) 
produce un grado de libertad adicional del modelo. Si bien este importante grado 
de libertad no permite que ni x\ ni x\ se empleen en el modelo, si lo permite para 
probar la significancia de una combination lineal de x\ y x\. Para n c corridas cen- 
trales, entonces, hay n c — 1 grados de libertad disponibles para la repeticion del 
error “puro” . Esto permite un estimador de cr 2 para probar los terminos del modelo 
y la significancia del unico grado de libertad para la falta de ajuste cuadratico. 
El concepto aquf se parece mucho al material del capitulo 11, donde se estudio la 
falta de ajuste. 

Con la finalidad de entender por complete como funciona la prueba de falta de 
ajuste, suponga que para k = 2 el modelo verdadero contiene todo el complemen- 
to de segundo orden de los terminos, inclusive x\ y x\. En otras palabras, 

E{Y) = ( 3 q -f- / 3 \Xi + P2X2 + P12X1X2 + @nx\ + /? 22^2- 
Ahora, considere el contraste 


Vf ~ Vo , 

donde j// es la respuesta promedio de las ubicaciones factoriales y y 0 es la respuesta 
promedio en el punto central. Es facil demostrar (vease el ejercicio de repaso 15.50) 
que 


E{yf - yo) = Pu + P22 5 


y, en efecto, para el caso general con k factores, 

k 

E (tif - Vo) = 3u 
i = 1 
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Como resultado, la prueba de la falta de ajuste es una prueba t simple (o F = t 2 ) 
con 


. = Vf - yo = Vf - yo 

s Vf-yo \/ mse (1 /rif + 1 /n c ) 

donde n c es el numero de puntos factoriales y mse solo es la varianza muestral de los 
valores de la respuesta en (0, 0, . . . , 0). 


Ejemplo 15.7:1 Se tomo un ejemplo de Myers y Montgomery (2002). Un ingeniero qui'mico trata 
de modelar la conversion porcentual en un proceso. Hay dos variables de interes, 
el tiempo de reaccion y la temperatura de esta. En un intento por llegar al modelo 
apropiado, se realiza un experimento preliminar en un factorial 2 2 usando la region 
actual de interes en el tiempo de reaccion y su temperatura. Se hizo una sola corrida 
en cada uno de los cuatro puntos factoriales y 5 en el centro del diseiio, con la finali- 
dad de que pudiera realizarse una prueba de la falta de ajuste para la curvatura. En 
la figura 15.12 se presenta la region del diseiio y las corridas experimentales sobre el 
producto. 

Las lecturas del tiempo y la temperatura en el centro son, por supuesto, 35 minu- 
tos y 145 °C. Los estimadores de los efectos principales y el coeficiente de interaction 
unica se calculan mediante contrastes, igual que antes. Las corridas en el centro 
no juegan ningun papel en el calculo de bi, b 2 y ^ 12 - La intuition del lector 
deberia decirle que esto es razonable. Para todo el experimento, la intersection es 
tan solo y. Este valor es y = 40.4444. Los errores estandar se encuentran usando los 
elementos de la diagonal de la matriz (X'X) -1 , como ya se dijo. Para este caso, 


X 



Xi 

x 2 

XiX 2 

1 

-1 

-1 

1 ' 

1 

-1 

1 

-1 

1 

1 

-1 

-1 

1 

1 

1 

1 

1 

0 

0 

-0 

1 

0 

0 

0 

1 

0 

0 

0 

1 

0 

0 

0 


Despues de hacer los calculos, se tiene que 


b 0 = 40.4444, 
s bo = 0.06231, 
t bo = 649.07 


bi = 0.7750, 
s bl = 0.09347, 
tb 1 = 8.29 


b 2 = 0.3250, 
s b2 = 0.09347, 
t b 2 = 3.48 


b 12 = -0.0250, 
s bl2 = 0.09347, 
t bl2 = 0.018, (P 


0.800). 


El contraste yf— y o = 40.425 — 40.46 = —0.035 y el estadistico t que prueba la 
curvatura esta dado por 


40.425 - 40.46 

t = . — 0.252, 

a/0. 0430(1/4 + 1/5) 


(P = 0.814). 


Como resultado, parece como si el modelo apropiado deberia contener solo terminos 
de primer orden (ademas de la intersection). 
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Tiempo 


Figura 15.12: Factorial 2 2 con 5 corridas en el centro. 


Una mirada intuitiva a la prueba sobre la curvatura 

Si se considera el caso sencillo de una sola variable de diseno con corridas en — 1 y 
+1, debe quedar claro que la respuesta promedio en —1 y +1 debe estar cerca de la 
respuesta en 0, el centro, si la naturaleza del modelo es de primer orden. Cualquier 
desviacion sugerina, con seguridad, curvatura. Esto es facil de extenderse a dos va- 
riables. Considere el lector la figura 15.13. 


y 



Figura 15.13: El factorial 2 2 con corridas en (0, 0). 


15.7 Experimentos factoriales en bloques incompletos 
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La figura muestra el piano sobre y que pasa a traves de los puntos factoriales. 
Este es el piano que representari'a el ajuste perfecto para el modelo que contiene 
xi, Xn y X 1 X 2 ■ Si el modelo no contiene curvatura cuadratica (es decir, [3u = j3 22 = 0, 
se esperarfa que la respuesta en (0, 0) estuviera en el piano o cerca de este. Si la 
respuesta estuviera lejos del piano, como es el caso en la figura 15.13, entonces es 
posible ver en forma grafica que la curvatura cuadratica esta presente. 


15.7 Experimentos factoriales en bloques incompletos 

El experimento factorial 2 k permite en si mismo hacer la partition en bloques incom- 
pletos. Para un experimento con k factores, cuando no pueden aplicarse todas las 2 k 
combinaciones de tratamientos en condiciones homogeneas, con frecuencia resulta 
util emplear un diseno en 2 P bloques (p < k). La desventaja con este planteamiento 
experimental es que como resultado de la formacion de bloques se sacrifican por 
completo ciertos efectos, y la cantidad de sacrificio depende del numero de bloques 
que se requieren. Por ejemplo, suponga que en un experimento factorial 2 3 deben 
correrse, en dos bloques de tamano cuatro, las ocho combinaciones de tratamientos. 
Ademas, suponga que se desea sacrificar la interaccion ABC. Note los “signos de 
contraste” en la tabla 15.5 de la pagina 617. Un arreglo razonable es el siguiente 


Bloque 1 Bloque 2 


( 1 ) 


a 

ab 


b 

ac 


c 

be 


abc 


Concepto de confusion 

Si se acepta el modelo usual con el efecto aditivo de bloques, este se cancela en la 
formacion de los contrastes sobre todos los efectos excepto el ABC. Para ilustrarlo, 
se hace que x denote la contribution a la salida debida a la diferencia entre bloques. 
Si las salidas en el diseno se escriben como 


Bloque 1 Bloque 1 


(1) 


a + x 

ab 


b + x 

ac 


c + X 

be 


abc + x 


se observa que el contraste ABC y tambien el contraste que compara los dos blo- 
ques, estan dados por 

contraste ABC = ( abc + x) + (c + x) + (b + x) + (a + x) — ( 1 ) — ab — ac — be 
= abc + a + b + c — ( 1 ) — ab — ac — be + 4x. 


Por lo tanto, se esta midiendo el efecto ABC mas el efecto de bloques, y no 
hay manera de evaluar el efecto de la interaccion ABC independiente de los bloques. 
Entonces, se dice que la interaccion ABC esta completamente confundida con 
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los bloques. Por necesidad, se ha sacrificado information sobre ABC. Por otro lado, 
el efecto de bloque se cancela en la formation de todos los demas contrastes. Por 
ejemplo, el contraste A esta dado por 

contraste A = ( abc + x) + (a + x) + ab + ac — (b + x) — (c + x) — be — (1) 

= abc + a + ab + ac — b — c — be — (1), 

como en el caso de un diseno aleatorio por complete. Se dice que los efectos A, B , C , 
AB, AC y BC, son ortogonales a los bloques. Por lo general, para un experimento 
factorial 2 k en 2 P bloques, el numero de efectos confundido con los bloques es 2 P — 1, 
que es equivalente a los grados de libertad para los bloques. 


Factorial 2 k en dos bloques 

Cuando se van a emplear dos bloques con un experimento factorial 2 k , como con- 
traste deflnitorio se elige un efecto, por lo general, una interaction de orden supe- 
rior. Este efecto va a confundirse con los bloques. Los efectos adicionales 2 k — 2 son 
ortogonales con el contraste definitorio y por ello con los bloques. 

Suponga el lector que el contraste definitorio se representa como d 7l i? 72 C' 73 . . . , 
donde 7, toma el valor de 0 o de 1. Esto genera la expresion 

L = 71 + 72 + • • • 7 fc, 

que a la vez se evalua para cada una de las 2 k combinaciones de tratamientos por 
medio de hacer 7 j igual a 0 o a 1, segun si la combination de tratamientos contiene el 
i-esimo factor en sus niveles alto o bajo. Entonces, los valores L se reducen (modulo 
2) ya sea a 0 o a 1, lo cual determina a cual bloque de combinaciones de tratamien- 
tos tienen que asignarse. En otras palabras, las combinaciones de tratamientos se 
dividen en dos bloques, segun si los valores de L dejan un residuo de 0 o 1 cuando 
se dividen entre 2. 


Ejemplo 15.8:1 Determine los valores de L (modulo 2) para un experimento factorial 2 3 cuando el 
contraste definitorio es ABC. 

Solucion: Con el contraste definitorio ABC, se tiene que 

L = 71 + 72 + 73 , 


que se aplica a cada tratamiento en la forma siguiente: 


(1) 

a 

b 

ab 

c 

ac 

be 

abc 


L = 0 + 0 + 0 = 0 = 0 
L=l+0+0=l=l 
L=0+1+0=1=1 
L=l+l+0=2=0 
L=0+0+l=l=l 
L=l+0+l=2=0 
L=0+l+l=2=0 
L=l+l+l=3=l 


(modulo 2) 
(modulo 2) 
(modulo 2) 
(modulo 2) 
(modulo 2) 
(modulo 2) 
(modulo 2) 
(modulo 2). 


Igual que antes, el arreglo de los bloques, en los que ABC esta confundido, es 
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Bloque 1 Bloque 2 


(1) 


a 

ab 


b 

ac 


c 

be 


abc 


Los efectos A, B , C, AB , AC y BC, y las sumas de los cuadrados, se calculan en la 
forma habitual, ignorando los bloques. 

Observe el lector que este arreglo es el mismo esquema de formacion de bloques 
que resultana al asignar las combinaciones de factores con signo “+” para el con- 
traste ABC a uno de los bloques, y aquellas con signo ” para el contraste ABC 
al otro bloque. 

El bloque que contiene la combinacion de tratamiento (1) en este ejemplo se 
denomina el bloque principal. Este forma un grupo algebraico con respecto a la 
multiplicacion cuando los exponentes se reducen al modulo de base 2. Por ejemplo, 
cumple la propiedad de cerradura, ya que 

(■ ab)(bc ) = ab 2 c = ac , ( ab){ab ) = a 2 b 2 = (1), 

y as! sucesivamente. 

Factorial 2 k en cuatro bloques 

Si se requiere que el experimentador asigne las combinaciones de los tratamientos en 
cuatro bloques, elegira dos contrastes definitorios. Un tercer efecto, conocido como 
su interaccion generalizada, se confunde en forma automatica con los bloques, 
estos tres efectos corresponden a los tres grados de libertad para los bloques. El 
procedimiento para construir el diseho se explica mejor con un ejemplo. Suponga 
que se decidio que para un factorial 2 4 los contrastes definitorios son AB y CD. El 
tercer efecto confundido, la interaccion generalizada de aquellos, esta formada con 
la multiplicacion de los dos modulos 2 iniciales. Entonces, el efecto 

(. AB)(CD ) = ABCD 

tambien esta confundido con los bloques. El diseho se construye calculando las ex- 
presiones 


L\= 7i+72 {AB), 

L 2 = 73 + 74 {CD) 

modulo 2, para cada una de las 16 combinaciones de tratamiento, para general' el 
siguiente esquema de bloques: 


Bloque 1 Bloque 2 Bloque 3 Bloque 4 


(1) 


a 


c 


ac 

ab 


b 


abc 


be 

cd 


acd 


d 


ad 

abed 


bed 


abd 


bd 


L\ — 0 L\ — 1 L\ — 0 L\ — 1 
L 2 = 0 L 2 = 0 L 2 = 1 L 2 = 1 
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Para construir los bloques restantes despues de haber generado el bloque prin- 
cipal, se usa un atajo del procedimiento. Se comienza por colocar cualquier com- 
bination de tratamientos no en el bloque principal, sino en un segundo bloque, y 
se construye el bloque con la multiplication (modulo 2) por las combinaciones de 
tratamientos en el bloque principal. En el ejemplo anterior, los bloques segundo, 
tercero y cuarto se generaron como sigue: 


Bloque 2 Bloque 3 Bloque 4 


a(l) = a 


c(l) = c 


ac( 1) = ac 

a(ab) = b 


c(ab) = abc 


ac(ab) = be 

a(cd) = acd 


"X5 

II 

O 


^3 

<3 

II 

O 

<3 

a(abcd) = bed 


c(abcd) = abd 


ac(abcd) = bd 


El analisis para el caso de cuatro bloques es muy sencillo. Se calculan en la forma 
habitual todos los efectos que son ortogonales a los bloques (aquellos que definen los 
contrastes) . 

Factorial 2 k en 2 P bloques 

El esquema general para el experimento factorial 2 fc en 2 P no es dificil. Se selecciona 
p definiendo contrastes tales que ninguno sea la interaction generalizada de cua- 
lesquiera dos en el grupo. Como hay 2 P — 1 grados de libertad para los bloques, se 
tienen 2 P — 1 — p efectos adicionales confundidos con los bloques. Por ejemplo, en 
un experimento factorial 2 6 en ocho bloques, se eligen ACF, BCDE y ABDF como 
los contrastes definitorios. Entonces, 

(. ACF) (BCDE ) = ABDEF , 

(ACF) (ABDF) = BCD , 

(BCDE)(ABDF) = ACEF, 

(ACF)(BCDE)(ABDF) = E 

son los cuatro efectos adicionales confundidos con los bloques. Este no es un esque- 
ma deseable para la formation de bloques, ya que uno de los efectos confundidos es 
el E principal. El diseno se construye con la evaluation de 

L\ = 7i + 73 + 76, 

L 2 = 72 + 73 + 74 + 75 , 

£3 = 7i + 72 + 74 + 76 

y la asignacion de los tratamientos en combinaciones a los bloques, de acuerdo con 
el esquema siguiente: 


Bloque 1 

L 1 

= 0, 

£ 2 = 0 , 

l 3 

= 0 

Bloque 2 

Li 

= 0, 

l 2 — 0, 

l 3 

= 1 

Bloque 3 

U 

= 0, 

l 2 = 1, 

l 3 

= 0 

Bloque 4 

Lx 

= 0, 

l 2 = 1, 

l 3 

= 1 

Bloque 5 

Lx 

= 1 , 

l 2 =0, 

l 3 

= 0 

Bloque 6 

Lx 

= 1 , 

l 2 =0, 

l 3 

= 1 


15.7 Experimentos factoriales en bloques inconipletos 
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Bloque 7: L\ = 1, L 2 = 1, 1/3 = 0 
Bloque 8: L\ = 1, £ 2 = 1, L 3 = 1- 

El atajo del procedimiento que se ilustro para el caso de cuatro bloques, tambien 
se aplica aquf. Por lo tanto, los siete bloques restantes se construyen a partir del 
bloque principal. 


Ejemplo 15.9:1 Es de interes estudiar el efecto de los cinco factores sobre alguna respuesta con la 
suposicion de que son despreciables las interacciones que implican tres, cuatro y 
cinco de los factores. Deben dividirse las 32 combinaciones de tratamiento en cuatro 
bloques, usando contrastes definitorios BCDE y ABCD. Asf, 

(BCDE)(ABCD) = AE 

tambien se confunde con los bloques. En la tabla 15.9 se da el diseno experimental 
y las observaciones. 


Tabla 15.9: Datos para un experimento 2 5 en cuatro bloques 


Bloque 1 Bloque 2 Bloque 3 Bloque 4 


(1) = 30.6 
be — 31.5 
bd = 32.4 
cd = 31.5 
abe = 32.8 
ace = 32.1 
ade — 32.4 
abede — 31.8 


a = 32.4 
abc = 32.4 
abd = 32.1 
acd = 35.3 
be = 31.5 
ce = 32.7 
de = 33.4 
bede = 32.9 


6 = 32.6 
c = 31.9 
d= 33.3 
bed = 33.0 
ae = 32.0 
abce = 33.1 
abde = 32.9 
aede = 35.0 


e = 30.7 
bee = 31.7 
bde = 32.2 
ede = 31.8 
ab = 32.0 
ae = 33.1 
ad = 32.2 
abed = 32.3 


La asignacion de combinaciones de tratamientos a unidades experimentales en 
los bloques es, por supuesto, aleatoria. A1 agrupar las tres, cuatro y cinco interaccio- 
nes de factores no confundidas, para formar el termino del error, realice el analisis 
de varianza para los datos de la tabla 15.9. 

Solucion: Se calculan las sumas de los cuadrados de cada uno de los 31 contrastes, y se encuen- 
tra que la suma de los cuadrados de los bloques es 

S'S'(bloques) = SS(ABCD) + SS(BCDE) + SS(AE) = 7.538. 

El analisis de varianza se presenta en la tabla 15.10. Ninguna de las interacciones 
de dos factores es significativa con un nivel a = 0.05, cuando se comparan con 
/o. 05 ( 1 . 14 ) = 4.60. Los efectos principals A y D son significativos y ambos dan 
efectos positivos sobre la respuesta, conforme se pasa del nivel bajo al alto. 


Confusion parcial 

Con los metodos descritos en la seccion 15.7, es posible confundir cualquier efec- 
to con los bloques. Suponga el lector que se considera un experimento factorial 2 3 en 
dos bloques con tres repeticiones completas. Si ABC esta confundida con los bloques 
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Tabla 15.10: Analisis de varianza para los datos de la tabla 15.9 


Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Media 

cuadratica 

/ 

calculada 

Efecto principal: 

A 

3.251 

1 

3.251 

6.32 

B 

0.320 

1 

0.320 

0.62 

C 

1.361 

1 

1.361 

2.64 

D 

4.061 

1 

4.061 

7.89 

E 

0.005 

1 

0.005 

0.01 

Interaction de dos factores: 

AB 

1.531 

1 

1.531 

2.97 

AC 

1.125 

1 

1.125 

2.18 

AD 

0.320 

1 

0.320 

0.62 

BC 

1.201 

1 

1.201 

2.33 

BD 

1.711 

1 

1.711 

3.32 

BE 

0.020 

1 

0.020 

0.04 

CD 

0.045 

1 

0.045 

0.09 

CE 

0.001 

1 

0.001 

0.002 

DE 

0.001 

1 

0.001 

0.002 

Bloques ( ABCD , BCDE, AE) 

: 7.538 

3 

2.513 


Error 

7.208 

14 

0.515 



en las tres replicas, se precede igual que antes y se determinan sumas de cuadrados 
de un solo grado de libertad para todos los efectos principales y los efectos de inte- 
raction de dos factores. La suma de cuadrados para los bloques tiene cinco grados de 
libertad, lo que deja 23 — 5 — 6 = 12 grados de libertad para el error. 

Ahora, se confundira ABC en una replica, AC en la segunda y BC en la tercera. 
El plan para este tipo de experimento seri'a el siguiente: 


Bloque 

Bloque 

Bloque 

2 

1 2 

i : 


abc 


ab 


abc 


ab 


abc 


ab 

a 


ac 


ac 


be 


be 


ac 

b 


be 


b 


a 


a 


b 

c 


(i) 


(1) 


c 


(i) 


c 


Replica 1 Replica 2 Replica 3 

ABC Confundida AC Confundida BC Confundida 


Se dice que los efectos ABC , AC y BC estan parcialmente confundidos con 
los bloques. Estos tres factores se estiman a partir de dos de las tres repeticiones. 
La razon 2/3 sirve como medida del grado de confusion. Esta razon da la cantidad 
de information disponible sobre el efecto parcialmente confundido con respecto de la 
disponible sobre el efecto no confundido. 

En la tabla 15.11 se presenta el analisis de varianza. Las sumas de los cuadrados 
para los bloques y para los efectos no confundidos A, B, C y AB , se encuentran en 
la forma habitual. Las sumas de cuadrados para AC, BC y ABC se calculan a partir 
de las dos repeticiones en las que el efecto particular no esta confundido. Cuando se 
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obtengan las sumas de cuadrados para los efectos parcialmente confundidos, debe 
tenerse cuidado en dividir entre 16 en vez de entre 24, ya que solo se usan 16 obser- 
vaciones. En la tabla 15.11 los primeros estan insertados con los grados de libertad, 
como recordatorio de que estos efectos estan confundidos parcialmente y requieren 
calculos especiales. 


Tabla 15.11: Analisis de varianza con confusion parcial 


Fuente de variacion 

Grados de libertad 

Bloques 

5 

A 

1 

B 

1 

C 

1 

AB 

1 

AC 

l' 

BC 

l' 

ABC 

l' 

Error 

11 

Total 

23 


Ej ercicios 

15.13 Presente el arreglo de bloques para un expe- 
rimento factorial 2 3 con tres repeticiones y, mediante 
una tabla de analisis de varianza, indique los efectos a 
probar y sus grados de libertad, cuando la interaction 
AB este confundida con los bloques. 

15.14 Se realizo el siguiente experimento para estu- 
diar los efectos principals y todas las interacciones. 
Se emplearon cuatro factores con cuatro niveles cada 
uno. El experimento se repitio y fueron necesarios dos 
bloques en cada replica. Los datos se presentan a con- 
tinuation. 

а) ^Cual efecto esta confundido con los bloques en la pri- 
mera repetition del experimento? lY en la segunda? 

б) Efectiie un analisis de varianza adecuado con prue- 
bas sobre todos los efectos principales y los de las in- 
teracciones. Utilice un nivel de significancia de 0.05. 

Replica 1 Replica 2 


Bloque 1 Bloque 2 Bloque 3 Bloque 4 



17.1 

a = 

15.5 


18.7 

a = 

17.0 

d = 

16.8 

b = 

14.8 

ab = 

18.6 

b = 

17.1 

ab = 

16.4 

c = 

16.2 

ac = 

18.5 

c = 

17.2 

ac = 

17.2 

ad = 

17.2 

ad = 

18.7 

d = 

17.6 

be = 

16.8 

bd = 

18.3 

be = 

18.9 

abc = 

17.5 

abd = 

18.1 

cd = 

17.3 

bd = 

17.0 

abd = 

18.3 

acd = 

19.1 

abc = 

17.7 

cd = 

18.7 

acd = 

18.4 

bed = 

18.4 

abed = 

19.2 

abed = 

19.8 

bed = 

18.3 


15.15 Divida las combinaciones de tratamientos de 
un experimento factorial 2 4 en cuatro bloques, confun- 
diendo ABC y ABD. ^Cual es el efecto adicional que 
tambien esta confundido con los bloques? 

15.16 Se realiza un experimento para determinar 
la fuerza de frenado de cierta aleacion que contiene 
cinco metales, A, B, C, D y E. Se emplean dos por- 
centajes diferentes de cada metal para formar las 
2 5 = 32 aleaciones distintas. Como solo es posible pro- 
bar ocho aleaciones en un dfa dado, el experimento se 
lleva a cabo durante un periodo de cuatro dfas, durante 
los cuales se confunden con estos los efectos ABDE y 
AE. Los datos experimentales se presentan enseguida. 

a) Plantee el esquema de bloques para los 4 dias. 

b) i,Que efecto adicional se confunde con los dfas? 

c) Obtenga las sumas de los cuadrados para todos los 
efectos principales. 

Comb. Fuerza de Comb. Fuerza de 


! trat. 

frenado 

de trat. 

frenado 

(1) 

21.4 

e 

29.5 

a 

32.5 

ae 

31.3 

b 

28.1 

be 

33.0 

ab 

25.7 

abe 

23.7 

c 

34.2 

ce 

26.1 

ac 

34.0 

ace 

25.9 
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Comb, 
de trat. 

Fuerza de 
frenado 

Comb, 
de trat. 

Fuerza de 
frenado 

be 

23.5 

bee 

35.2 

abc 

24.7 

abce 

30.4 

d 

32.6 

de 

28.5 

ad 

29.0 

ade 

36.2 

bd 

30.1 

bde 

24.7 

abd 

27.3 

abde 

29.0 

cd 

22.0 

ede 

31.3 

acd 

35.8 

aede 

34.7 

bed 

26.8 

bade 

26.8 

abed 

36.4 

abede 

23.7 


15.17 A1 confundir ABC en dos replicas y AB en una 
tercera, muestre el arreglo de bloques y la tabla de 
analisis de varianza para un experimento factorial 2 3 
con tres repeticiones. ^.Cual es la information relativa 
sobre los efectos confundidos? 

15.18 Los datos codificados que siguen representan la 
resistencia de cierto tipo de lote de envoltura para pan, 
que procede de 16 condiciones diferentes, las cuales re- 
presentan dos niveles de cada una de cuatro variables 
de proceso. En el modelo se introdujo un efecto opera- 
dor, ya que era necesario obtener la mitad de corridas 
experimentales con el operador 1, y la otra mitad con 
el 2. Se pensaba que los operadores tendri'an un efecto 
en la calidad del producto. 

a) Si se supone que las interacciones son despreciables, 
haga pruebas de significancia para los factores A, B, 
C y D. Use un nivel de significancia de 0.05. 

b) i,Que interaction esta confundida con los opera- 
dores? 


Operador 1 Operador 2 


(1) = 18.8 


a = 14.7 

ab = 16.5 


b = 15.1 

ac = 17.8 


c= 14.7 

be = 17.3 


abc = 19.0 

d= 13.5 


ad = 16.9 

abd = 17.6 


bd= 17.5 

acd = 18.5 


cd= 18.2 

bed = 17.6 


abed =20.1 


15.19 Considere un experimento 2 5 donde las corri- 
das experimentales son sobre 4 maquinas diferentes. 
Use las maquinas como bloques y suponga que todos 
los efectos principales y las interacciones de dos facto- 
res son importantes. 

a ) ^Cuales corridas se harfan sobre cada una de las 4 
maquinas? 

b) ^Cuales efectos se confunden con los bloques? 

15.20 En un experimento descrito en Myers y Mont- 
gomery (2002), se plantea que se buscan las condicio- 
nes optimas para almacenar semen de bovinos, con 
la finalidad de obtener la supervivencia maxima. Las 
variables son el porcentaje de citrato de sodio, el por- 
centaje de glicerol y el tiempo de equilibrio en horas. 


La respuesta es el porcentaje de supervivencia de los 


espermatozoides moviles. Los niveles naturales se en- 
cuentran en la referenda mencionada. A continuation 

se presentan los datos con los niveles codificados para 

la portion factorial del disefio 

y las corridas centrales. 

X\, 


* 3 , 


Porcentaje 

X2, 

Tiempo 

Porcentaje 

de citrato 

Porcentaje 

de 

de super- 

de sodio 

de glicerol 

equilibrio 

vivencia 

-1 

-1 

-1 

57 

1 

-1 

-1 

40 

-1 

1 

1 

19 

1 

1 

1 

40 

-1 

-1 

-1 

54 

1 

-1 

-1 

41 

-1 

1 

1 

21 

1 

1 

1 

43 

0 

0 

0 

63 

0 

0 

0 

61 


a) Ajuste un modelo de regresion lineal a los datos y 
determine cuales terminos lineales y de interaction 
son significativos. Suponga que la interaction 2 : 1 X 22:3 
es despreciable. 

b) Pruebe la falta de ajuste para el modelo cuadratico 
y comente la respuesta. 

15.21 Los productores de petroleo estan interesa- 
dos en aleaciones de rn'quel de alta resistencia contra la 
corrosion. Se realizo un experimento en el que se compa- 
raron a la tension especfmenes de aleaciones de rn'quel, 
cargados en una solution de acido sulfurico saturada 
con disulfuro de carbon. Se combinaron dos aleaciones; 
una con 75% de rn'quel y otra con 35% de este metal. 
Se probaron las aleaciones con dos tiempos de carga 
distintos, 25 y 50 dfas. Se realizo un factorial 2 3 con los 
factores siguientes: 

% de acido sulfurico al 4%, 6 %: ( 2 : 1 ) 

tiempo de carga, 25 dfas, 50 dfas: ( 2 : 2 ) 
composition de rn'quel, 30%, 75%: ( 2 : 3 ) 

Se preparo un especimen para cada una de las ocho 
condiciones. Como los ingenieros no estaban seguros de 
la naturaleza del modelo (es decir, si se necesitarfan o 
no terminos cuadraticos), se incorporo un tercer nivel 
(medio) y se emplearon cuatro corridas centrales con 
el empleo de cuatro especfmenes con acido sulfurico al 
5%, 37.5 dfas y 52.5% de rn'quel. Las siguientes son las 
resistencias en kilogramos por pulgada cuadrada. 


Tiempo de carga 


25 dfas 

50 dfas 

Comp. Acido sulfurico 

Acido sulfurico 


de rn'quel 4 % 6% 4% 6% 


75% 52.5 56.5 47.9 47.2 

30% 50.2 50.8 47.4 41.7 

Las corridas centrales dan las resistencias siguientes: 

51.6, 51.4, 52.4, 52.9 
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- 1 , 1 


1 , 1 


• •• 

( 0 , 0 ) 


- 1 , -1 


1 , -1 




Figura 15.14: Grafica para el ejercicio 15.23. 


a) Haga pruebas para determinar cuales efectos e in- 
teracciones deberi'an incluirse en el modelo ajustado. 

b) Pruebe para la curvatura cuadratica. 

c) Si la curvatura cuadratica es significativa, ^cuantos 
puntos de diseno adicionales se necesitan para deter- 
minar cuales terminos cuadraticos deberi'an incluirse 
en el modelo? 

15.22 Suponga el lector que podria efectuarse una se- 
gunda repetition del experimento del ejercicio 15.19. 

a) ^La mejor selection serfa una segunda repetition del 
esquema de bloques del ejercicio 15.19? 


b) Si la respuesta del inciso a) es no, proporcione el 
bosquejo para una selection mejor para la segunda 
replica. 

c) ^Que concepto utilizo en su selection del diseno? 

15.23 Considere la figura 15.14, la cual representa 
un factorial 2 2 con 3 corridas centrales. Si la cuadratu- 
ra cuadratica es significativa, ^cuales puntos de diseno 
adicionales seleccionarfa el lector que permitieran esti- 
mar los terminos x\ y x\. Explique su respuesta. 


15.8 Experimentos factoriales fraccionarios 

Cuando el valor de k es grande, el experimento factorial 2 fc puede hacerse muy 
demandante, en terminos del numero de unidades experimentales que se requiere. 
Una de las ventajas reales con este plan experimental es que permite un grado de 
libertad para cada interaction. Sin embargo, en muchas situaciones experimentales 
se sabe que ciertas interacciones son despreciables, por lo que serfa un desperdicio 
de esfuerzo experimental el usar el experimento factorial completo. En realidad, el 
experimentador podrfa tener una restriction economica que no permitiera tomar 
observaciones en todas las 2 fc combinaciones de tratamientos. Cuando k es grande, 
es frecuente usar un experimento factorial fraccionario donde en realidad se 
considere la mitad, un cuarto o incluso un octavo del total de planes factoriales. 

Construccion de la fraccion \ 

La construccion del diseno de media repetition es identico a la asignacion del expe- 
rimento factorial 2 k en dos bloques. Se comienza por seleccionar un contraste defini- 
torio que se vaya a sacrificar por completo. Despues, se construyen los dos bloques 
en concordancia y se elige cualquiera de ellos como plan experimental. 
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Es frecuente que se haga referenda a la fraccion \ de un factorial 2 k como diseno 
2 fc_1 , el cual indica el niimero de puntos de diseno. La primera ilustracion de un di- 
seno 2 fe_1 es uno de \ o uno de 2 3 ~ b En otras palabras, el cientifico o el ingeniero 
no puede usar el complemento completo (es decir, el total de 2 3 con 8 puntos de 
diseno), por lo que debe apelar a un diseno con solo 4 puntos de diseno. La pregunta 
es la siguiente: de los puntos de diseno (1), a, b, ab, ac, c, be y abc , ^cuales son los 
cuatro puntos de diseno que resultarian en el diseno mas util? La respuesta, junto 
con los conceptos importantes relacionados, aparece en la tabla de signos + y — que 
muestran los contrastes para todos los 2 3 . Considere la tabla 15.12. 


Tabla 15.12: Contrastes para los siete efectos disponibles para un experimento 
factorial 2 3 



Combinacion 
de tratamientos 





Efectos 



1 

A 

B 

C 

AB 

AC 

BC 

ABC 


a 

+ 

+ 

— 

- 

- 

- 

+ 

+ 

2 3 - 1 

b 

+ 

- 

+ 

- 

- 

+ 

- 

+ 


c 

+ 

- 

- 

+ 

+ 

— 

- 

+ 


abc 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 


ab 

+ 

+ 

+ 

— 

+ 

— 

— 

— 

2 3 - 1 

ac 

+ 

+ 

- 

+ 

- 

+ 

- 

- 


be 

+ 

- 

+ 

+ 

- 

- 

+ 

- 


(i) 

+ 

- 

- 

- 

+ 

+ 

+ 

- 


Observe que las dos fracciones 5 son {a, 6, c, abc} y {ab, ac, be, (1)}. Tambien 
note en la tabla 15.12, que en ambos disenos ABC no tiene contraste, pero todos los de- 
mas efectos si lo tienen. En una de las fracciones se tiene que ABC contiene todos 
los signos + y en la otra fraccion el efecto ABC todos los signos — . Como resultado, 
se dice que el diseno de la parte superior de la tabla esta descrito por ABC = I, y 
el de la parte inferior por ABC — —I. La interaccion ABC se denomina genera- 
dor del diseno, y ABC = I (o ABC = — I , para el segundo diseno) recibe el nombre 
de relacion definitoria. 


Alias en el 2 3 1 


Si nos centramos en el diseno ABC = I (el 2 3 ” 1 superior), es evidente que seis efec- 
tos contienen contrastes. Esto produce la apariencia inicial de que todos los efectos 
se estudian por separado de ABC. Sin embargo, es seguro que el lector recuerda que 
con solo cuatro puntos de diseno, aun si se repiten, los grados de libertad disponibles 
(ademas de aquel para el error experimental) son 

Terminos del modelo de regresion 3 
Interseccion 1 

4 

Un analisis mas de cerca sugiere que siete efectos no son ortogonales y, en realidad, 
cada contraste esta representado en otro efecto. De hecho, si se emplea el simbolo = 
para denotar contrastes identicos, se tiene que 


A = BC; 


B = AC ; 


C = AB. 
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Como resultado, dentro de un par, un efecto no puede estimarse en forma indepen- 
diente de su “socio” alias. De hecho, los efectos 


A = 


a + abc — b — c 
2 


y 


BC = 


a + abc — b — c 
2 


production el mismo resultado numerico, por lo que contienen la misma information. 
En realidad, es frecuente decir que comparten un grado de libertad. El efecto 
estimado, realmente estima la suma, es decir, A + BC. Se dice que A y BC son alias, 
al igual que B y AC, y que C y AB. 

Para la fraction ABC = —I, se observa que los alias son los mismos que para la 
fraction ABC = /, signo aparte. Asf, se tiene 

A = -BC; B = -AC; C = -AB. 


Las dos fracciones aparecen en las esquinas del cubo de la figura 15.15a) y 15.156). 




a) ABC — fraction I 


b) ABC — fraction -1 


Figura 15.15: Fracciones § del factorial 2 3 . 


Forma en que se determinan los alias en general 

En general, para un 2 fc “ 1 , cada efecto, ademas de aquel definido por el generador, 
tendra un solo socio alias. El efecto definido por el generador no tendra alias en otro 
efecto pero el suyo sera la media, ya que el estimador de mmirnos cuadrados sera 
la media. Para determinar el alias de cada efecto, solo se comienza con la relation 
definitoria, digamos ABC = I para el 2 3-1 . Despues de hallar, digamos, el alias para 
el efecto A, se multiplica A por ambos lados de la ecuacion ABC = I y se reduce 
cualquier exponente por el modulo 2. Por ejemplo, 

A ■ ABC — A, con lo que BC = A. 


En forma similar, 


B = B- ABC = AB 2 C = AC, 
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y, por supuesto, 


C = C ■ ABC = ABC 2 = AB. 

Ahora, para la segunda fraction (es decir, definida por la relation ABC = — I ), 

A = —BC\ B = -AC] C = -AB. 

Como resultado, el valor numerico del efecto A en realidad estima a A — BC. Asi- 
mismo, el valor de B estima B — AC , y el valor de C estima a C — AB. 

Construccion formal de 2 k ~ 1 

La comprension clara del concepto de los alias hace muy sencillo entender la cons- 
truccion de 2 k ~ 1 . Se comienza con la investigation de 2 3-1 . Se requieren tres factores 
y cuatro puntos de diseno. El procedimiento comienza con un factorial completo 
en k — 1 = 2 factores A y B. Despues se agrega un tercer factor de acuerdo con 
las estructuras de alias deseadas. Por ejemplo, con ABC como el generador, resulta 
claro que C = ± AB. Asf, se encuentra C = AB o — AB para que proporcione el 
factorial completo en A y B. La tabla 15.13 ilustra lo que es un procedimiento muy 
sencillo. 


Tabla 15.13: Construccion de los dos disenos 2 3 1 


2 2 

Basico 

2 3 ~ 

- 1 ; ABC = I 

2 3 - 

- 1 ; ABC 

= —I 

A 

B 

A 

B C = AB 

A 

B C = 

-- -AB 

+ 

~ 

+ 

+ 

+ 

— 

+ 

- 

+ 

- 

+ 

- 

+ 

+ 

+ 

+ 

+ 

+ + 

+ 

+ 

- 


Ya vimos que ABC = I brinda los puntos de diseno (1), a, b , abc] en tanto que 
ABC = —I da (1), ac, be y ab. Desde antes era posible construir los mismos disenos 
usando los contrastes que se muestran en la tabla 15.12. Sin embargo, conforme el 
diseno se vuelve mas complicado con fracciones superiores, esas tablas de contrastes 
se vuelven mas difitiles de trabajar. 

Ahora considere un 2 4-1 , (es decir, \ de un diseno factorial 2 4 ) donde intervienen 
los factores A, B, C y D. Como en el caso del 2 3-1 , la interaction de mayor orden, 
ABCD , es la que se usa como generador. Debe recordarse que ABCD = I , la rela- 
tion definitoria sugiere que la information sobre ABCD resulta sacrificada. Aquf se 
comienza con 2 3 completo en A, B y C, y se forma D = ± ABC para generar los 
dos disenos 2 4 ” 1 . La tabla 15.14 ilustra la construccion de ambos disenos. 

Aquf, empleando las notaciones de a, b , c, etcetera, se tienen los disenos siguientes: 

ABCD = /, (1), ad, bd, ab, cd, ac, be, abed 
ABCD = —I, d, a, b, abc, c, acd, bed, abc. 

En el caso de 2 4-1 se encuentran los alias como ya se ilustro para 2 3-1 . Cada 
efecto tiene un solo socio alias que se encuentra con la multiplication y usando la 
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Tabla 15.14: Construccion de los dos disenos 2 4 1 


2 3 

Basico 


2 4 -l; 

ABCD 

= I 


2 4 - 1 ; ABCD = 

-I 

A 

B 

C 

A 

B 

C D = 

= ABC 

A 

B C D = 

-ABC 

+ 

~ 

~ 

+ 

~ 

~ 

+ 

+ 

~ ~ 

+ 

- 

+ 

- 

- 

+ 

- 

+ 

- 

+ - 

- 

+ 

+ 

- 

+ 

+ 

- 

- 

+ 

+ - 

+ 

- 

- 

+ 

- 

- 

+ 

+ 

- 

- + 

- 

+ 

- 

+ 

+ 

- 

+ 

- 

-1- 

- -1- 

-1- 

- 

+ 

+ 

- 

-1- 

+ 

- 

- 

+ -1- 

-1- 

+ 

-1- 

-1- 

-1- 

+ 

+ 

+ 

-1- 

+ -1- 

- 


relation definitoria. Por ejemplo, el alias de A para el diseno ABCD = I esta dado 
por 


A = A ■ ABCD = A 2 BCD = BCD. 


El alias para AB esta dado por 


AB = AB ■ ABCD = A 2 B 2 CD = CD. 


Como es facil observar, los efectos principales tienen alias con tres interacciones de 
factores, y dos interacciones de factores los tienen con otras dos interacciones. La 
lista completa es la que sigue: 

A = BCD AB = CD 

B = ACD AC = BD 

C = ABD AD = BC 

D = ABC. 


Construccion de la fraccion \ 

En el caso de la fraccion 4 , en vez de una se seleccionan dos interacciones para ser 
sacrificadas, y la tercera resulta al encontrar la interaccion generalizada de las dos se- 
leccionadas. Observe que esto se parece mucho a la construccion de cuatro bloques 
que se estudio en la section 15.7. La fraccion que se emplea tan solo es uno de los 
bloques. Un ejemplo sencillo ayuda mucho para ver la conexion con la construccion 
de la fraccion \. Considere el lector la construccion de 3 de un factorial 2 5 (es decir, 
2 5 2 ). con los factores A, B, C, I) y E. Un procedimiento que evita la confusion 
de dos efectos principales es la selection de ABD y ACE como las interaccio- 
nes que corresponden a los dos generadores, lo que da ABD = I y ACE = I como 
las relaciones definitorias. La tercera interaccion sacrificada seri'a (ABD) (ACE) = 
A 2 BCDE = BCDE. Para la construccion del diseno se comienza con el factorial 
2 5 ~ 2 = 2 3 en A, B y C. Se usan las interacciones ABD y ACE para suministrar los 
generadores, de manera que el factorial 2 3 en A, B y C es suministrado por el factor 
D = ± AB y E = ±AC. 
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Asf, una de las fracciones esta dada por 


A 

B 

C 

D = AB 

E = AC 


- 

- 

- 

+ 

+ 

de 

+ 

- 

- 

- 

- 

a 

— 

+ 

— 

- 

+ 

be 

+ 

+ 

- 

+ 

- 

abd 

- 

- 

+ 

+ 

- 

cd 

+ 

- 

+ 

- 

+ 

ace 

— 

+ 

+ 

- 

- 

be 

-1- 

+ 

+ 

+ 

+ 

abcde 


Las otras tres fracciones se encuentran utilizando el generador {D = — AB , E = AC}, 
{D = AB, E = —AC} y {D = —AB, E = —AC}. Considere un analisis del diseno 
2 5-2 anterior. Contiene 8 puntos de diseno para estudiar cinco factores. Los alias 
para los efectos principals estan dados por 


A(ABD) = BD; 

B = AD 
C = ABCD 
D = AB 
E = ABDE 


A{ACE) = CE, A(BCDE) 
= ABCE 
= AE 
= ACDE 
= AC 


ABCDE 

CDE 

BDE 

BCE 

BCD 


Los alias para otros efectos se pueden encontrar de la misma manera. La clasifica- 
cion de los grados de libertad esta dada por (repetition aparte) 

Efectos principales 5 

Falta de ajuste _2_ ( CD = BE, BC = DE) 

Total 7 

Se enlistan las interacciones solo para el grado dos en la falta de ajuste. 

Ahora, considere el lector el caso de 2 6 ~ 2 , lo que permite 16 puntos de diseno 
para estudiar seis factores. Otra vez se eligen dos generadores de diseno. Una se- 
lection pragmatica para obtener un factorial complete 2 6 ^ 2 = 2 4 en A, B, C y D, 
consiste en usar E = ± ABC yf=± BCD. La construction se da en la tabla 
15.15. 

Es evidente que con mas de 8 puntos de diseno que 2 5 ~ 2 , los alias de los efectos 
principales no representaran un problema dificil. En realidad, observe que con las rela- 
ciones definitorias ABCE = ± I, BCDF= ± I, y ( ABCE) ( BCDF) = ADEF = ± I, 
los efectos principales tendran alias con las interacciones que no son mas complejas 
que las de tercer orden. La estructura de los alias para los efectos principales es: 


A= BCE = ABCDF = DEF, 
B= ACE = CDF = ABDEF, 
C= ABE = BDE = AC DEF, 


D = ABCDE = BCF = AEF, 
E = ABC = BCDEF = ADF, 
F = ABCEF = BCD = ADE, 


15.9 Analisis de los experimentos factoriales fraccionarios 


653 


Tabla 15.15: Disefio 2 6 " 2 


A 

B 

C 

D E = ABC 

F = BCD 

Combination 
de tratamientos 

+ 

~ 

— 

— 

+ 

~ 

(1) 

ae 

- 

+ 

- 

- 

+ 

+ 

bef 

+ 

+ 

- 

- 

- 

+ 

abf 

- 

- 

+ 

- 

+ 

+ 

cef 

+ 

- 

+ 

- 

- 

+ 

acf 

- 

+ 

+ 

- 

- 

- 

be 

+ 

+ 

+ 

- 

-1- 

- 

abce 

- 

- 

- 

+ 

- 

-1- 

df 

+ 

- 

- 

+ 

+ 

+ 

adef 

- 

+ 

- 

+ 

+ 

- 

bde 

+ 

+ 

- 

+ 

- 

- 

abd 

- 

- 

+ 

+ 

-1- 

- 

ede 

+ 

- 

+ 

+ 

- 

- 

acd 

- 

+ 

+ 

+ 

- 

+ 

bedf 

+ 

+ 

+ 

+ 

+ 

+ 

abedef 


cada uno con un solo grado de libertad. Para las interacciones de dos factores, 

AB= CE = ACDF = BDEF, AF = BCEF = ABCD = DE, 

AC= BE = ABDF = CDEF , BD = ACDE = CF = ABEF , 

AD= BCDE = ABCF = EF, BF = ACEF = CD = ABDE , 

AE= BC = ABCDEF = DF. 

Por supuesto, aqm' hay algunos alias entre las interacciones de dos factores. Los dos 
grados de libertad restantes son tornados en cuenta por los grupos siguientes: 

ABD = CDE = ACF = BEF , ACD = BDE = ABF = CEF. 

Es evidente que siempre se debe estar alerta de que la estructura de alias es para 
un experimento fraccionario, antes de que se recomiende, finalmente, el plan experi- 
mental. Es importante la selection adecuada de contrastes definitorios, ya que es lo 
que dicta la estructura de los alias. 


15.9 Analisis de los experimentos factoriales fraccionarios 

La dificultad de hacer pruebas formales de significancia con clatos de experimentos 
factoriales fraccionarios estriba en la determination del termino del error apropia- 
do. A menos que haya datos disponibles de experimentos anteriores, el error debe 
venir de un conjunto de contrastes que representan efectos que se presume son des- 
preciables. 

Las sumas de cuadrados para los efectos individuales se encuentran usando en 
esencia los mismos procedimientos dados para el factorial completo. Es posible for- 
mar un contraste en las combinaciones de tratamientos con la construction de la 
tabla de signos positivos y negativos. Por ejemplo, para la mitad de replica de un 


654 


Capitulo 15 Experimentos factoriales 2 k y fracciones 


experimento factorial 2 3 , con ABC como contraste definitorio, en la tabla 15.16 se 
presentan un conjunto posible de combinaciones de tratamientos, el signo algebraico 
apropiado para cada contraste, usado para calcular los efectos y las sumas de los 
cuadrados de los distintos efectos. 


Tabla 15.16: Signos para los contrastes en media replica 
de un experimento factorial 2 3 


Combination 



Efecto factorial 



de tratamientos 

A 

B 

C 

AB 

AC 

BC 

ABC 

a 

+ 

- 

- 

— 

- 

+ 

+ 

b 

- 

+ 

- 

- 

+ 

- 

+ 

c 

- 

- 

+ 

+ 

- 

- 

+ 

abc 

+ 

+ 

+ 

+ 

+ 

+ 

+ 


Observe que en la tabla 15.16, los contrastes A y BC son identicos, lo cual ilustra 
los alias. Asimismo, B = AC y C = AB. En esta situation se tienen tres contrastes 
ortogonales que representan los 3 grados de libertad disponibles. Si se obtienen dos 
observaciones para cada una de las cuatro combinaciones de tratamientos, entonces 
se tendrfa un estimador de la varianza del error con 4 grados de libertad. Si se supo- 
ne que los efectos de la interaction son despreciables, podrian hacerse pruebas para 
la significancia de todos los efectos principales. 

Un ejemplo del efecto y la suma de cuadrados correspondientes es 


A = 


a — b — c + abc 
2 n ’ 


SSA = 


(a — b — c + abc) 2 
2 An 


En general, la suma de cuadrados con un grado de libertad para cualquier efecto en 
una fraction 2~ p de un experimento factorial 2 k ( p < k), se obtiene elevando al cua- 
drado los contrastes en los totales de los tratamientos seleccionados, y dividiendo entre 
2 k ~ p n, donde n es el numero de replicas de estas combinaciones de tratamientos. 


Ejemplo 15.10:1 Suponga que se desea emplear una media replica para estudiar los efectos de cinco 
factores, cada uno en dos niveles, sobre alguna respuesta, y que se conoce que cual- 
quiera que sea el efecto de cada factor, sera constante para cada nivel de los demas fac- 
tores. En otras palabras, no hay interacciones. Sea el contraste definitorio ABCDE 
que ocasiona que los efectos principales tengan alias con interacciones de cuatro fac- 
tores. El agrupamiento de contrastes que implica interacciones provee 15 — 5 = 10 
grados de libertad para el error. Ejecute un analisis de varianza sobre los datos de 
la tabla 15.17, con la prueba de todos los efectos principales para un nivel de signi- 
ficancia de 0.05. 

Solucion: Las sumas de cuadrados y los efectos para los efectos principales son 

(11.3-15.6 14.7+ 13. 2) 2 (-17.5) 2 


SSA = 


A = = -2.19 


SSB = 


B = = 2.26 


2 5-1 


16 

2.19, 



(-11.3 + 15.6 

- 14.7+ 13. 2) 2 

(18. 1) 2 

2 5-1 


16 

(-11.3- 15.6 + 

+ 14.7+ 13. 2) 2 

(10.3) 2 


= 19.14, 


= 20.48, 


2 5-i 


SSC 


16 


= 6.63 
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Tabla 15.17: Datos para el ejemplo 15.10 


Tratamiento 

Respuesta 

Tratamiento 

Respuesta 

a 

11.3 

bed 

14.1 

b 

15.6 

abe 

14.2 

c 

12.7 

ace 

11.7 

d 

10.4 

ade 

9.4 

e 

9.2 

bee 

16.2 

abc 

11.0 

bde 

13.9 

abd 

8.9 

ede 

14.7 

acd 

9.6 

abode 

13.2 


C= = 1.31, 

(-11.3-15.6 + 14.7+13.2) 2 (-7.7) 2 

ssd = - — — = — = 3.71, 

2 5_1 16 

D = =%?- = -0.96, 

SS(E) = ( - 1I -3- 1 ^- :; +14 -7 + 1 3.2)^ = <8_^ = 4 g5 _ 
E = M = in. 


Todos los demas calculos y pruebas de significancia se resumen en la tabla 15.18. 
Las pruebas indican que el factor A tiene un efecto negativo significativo sobre la 
respuesta; mientras que el factor B lo tiene positivo y significativo. Los factores C, 
D y E no son significativos al nivel de significancia de 0.05. 


Tabla 15.18: Analisis de varianza para los datos de media replica de un experimento 
factorial 2 5 


Fuente de 
variacion 

Suma de 
cuadrados 

Grados de 
libertad 

Media 

cuadratica 

/ 

calculada 

Efecto principal 
A 

19.14 

1 

19.14 

6.21 

B 

20.48 

1 

20.48 

6.65 

C 

6.63 

1 

6.63 

2.15 

D 

3.71 

1 

3.71 

1.20 

E 

4.95 

1 

4.95 

1.61 

Error 

30.83 

10 

3.08 


Total 

85.74 

15 
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Ej ercicios 

15.24 Liste los alias de los diferentes efectos en un 
experimento factorial 2 5 , si el contraste definitorio es 
ACDE. 

15.25 a) Obtenga una fraction \ de un diseiio facto- 
rial 2 4 usando BCD como el contraste definitorio. 

b) Divida la fraction 5 en 2 bloques de 4 unidades cada 
uno, confundiendo ABC. 

c ) Construya la tabla de analisis de varianza (fuen- 
tes de variation y grados de libertad) para probar 
todos los efectos principales confundidos, si se acepta 
que todas las interacciones de los efectos son des- 
preciables. 

15.26 Construya una fraction | de un diseiio factorial 
2 6 con el uso de ABCD y BDEF como los contrastes 
definitorios. Diga cuales efectos tienen alias con los seis 
efectos principales. 

15.27 a) Con los contrastes definitorios ABCE y 
ABDF, obtenga una fraction \ de un diseiio 2 6 . 

b ) Muestre la tabla del analisis de varianza (fuentes 
de variacion y grados de libertad) para todas las 
pruebas apropiadas, suponiendo que E y F no inter- 
catuan, y que son despreciables los tres factores y 
las interacciones mayores. 

15.28 En un experimento que implica solo 16 inten- 
tos, se varfan siete factores en dos niveles. Se utiliza 
un experimento factorial 2 7 con una fraction §, con los 
contrastes definitorios ACD, BEF y CEG. Los datos 
son los siguientes: 


Comb, 
de trat. 

Respuesta 

Comb, 
de trat. 

Respuesta 

(1 

31.6 

acg 

31.1 

ad 

28.7 

cdg 

32.0 

abce 

33.1 

beg 

32.8 

cdef 

33.6 

adefg 

35.3 

acef 

33.7 

efg 

32.4 

bade 

34.2 

abdeg 

35.3 

abdf 

32.5 

bcdfg 

35.6 

bf 

27.8 

abcfg 

35.1 


Realice un analisis de varianza sobre los siete efectos 
principales, suponiendo que las interacciones son des- 
preciables. Use un nivel de significancia de 0.05. 


15.29 Se lleva a cabo un experimento de manera que un 
ingeniero adquiera conocimiento acerca de la influencia 
de la temperatura de sellado A, temperatura de enfria- 
miento de una barra B, porcentaje de aditivo de polie- 
tileno C, y presion D, sobre la resistencia del sello (en 
gramos por pulgada) de un lote de envoltura para pan. 
Se emplea un experimento factorial 2 4 con fraction 5, 
con el contraste definitorio de ABCD. A continuation 
se presentan los datos. Ejecute un analisis de varianza 


sobre los efectos principales, y las interacciones de dos 
factores; suponga que todas las interacciones de tres y 
mas factores son despreciables. Use a = 0.05. 


A 

B 

C 

D 

Respuesta 

-1 

-1 

-1 

-1 

6.6 

1 

-1 

-1 

1 

6.9 

-1 

1 

-1 

1 

7.9 

1 

1 

-1 

-1 

6.1 

-1 

-1 

1 

1 

9.2 

1 

-1 

1 

-1 

6.8 

-1 

1 

1 

-1 

10.4 

1 

1 

1 

1 

7.3 


15.30 En un experimento realizado en el Departa- 
mento de Ingenierfa Mecanica y analizado por el Cen- 
tro de Consultorfa en Estadfstica del Instituto Poli- 
tecnico y Universidad Estatal de Virginia, un sensor 
detecta una carga electrica cada vez que las aspas de 
una turbina completan una rotation. Luego, el sensor 
mide la amplitud de la corriente electrica. Seis factores 
son rpm A, temperatura B, espacio entre las aspas C, 
espacio entre las aspas y la carcasa D, ubicacion de la 
entrada E, y ubicacion del detector F. Se utiliza un 
experimento factorial 2 6 con fraction de j, y los con- 
trastes definitorios son ABCE y BCDF. Los datos son 
los siguientes: 


A 

B 

C 

D 

E 

F Respuesta 

-1 

-1 

-1 

-1 

-1 

-1 

3.89 

1 

-1 

-1 

-1 

1 

-1 

10.46 

-1 

1 

-1 

-1 

1 

1 

25.98 

1 

1 

-1 

-1 

-1 

1 

39.88 

-1 

-1 

1 

-1 

1 

1 

61.88 

1 

-1 

1 

-1 

-1 

1 

3.22 

-1 

1 

1 

-1 

-1 

-1 

8.94 

1 

1 

1 

-1 

1 

-1 

20.29 

-1 

-1 

-1 

1 

-1 

1 

32.07 

1 

-1 

-1 

1 

1 

1 

50.76 

-1 

1 

-1 

1 

1 

-1 

2.80 

1 

1 

-1 

1 

-1 

-1 

8.15 

-1 

-1 

1 

1 

1 

-1 

16.80 

1 

-1 

1 

1 

-1 

-1 

25.47 

-1 

1 

1 

1 

-1 

1 

44.44 

1 

1 

1 

1 

1 

1 

2.45 


Lleve a cabo un analisis de varianza sobre los efectos 
principales y las interacciones de dos factores, si se 
acepta que las interacciones de tres factores o mas son 
despreciables. Use a = 0.05. 

15.31 En un estudio denominado Durability of Rub- 
ber to Steel Adhesively Bonded Joints, efectuado por el 
Departamento de Ciencias del Ambiente y Mecanica, y 
analizado por el Centro de Consultorfa en Estadfstica 
del Instituto Politecnico y Universidad Estatal de Vir- 
ginia, un experimentador mide el numero de roturas 
en un sello adhesivo. Se planted que en esta rotura era 
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posible que influyeran la concentration de agua marina 
A, la temperatura B, el ph C, el voltaje D, y la tension 
E. Se emplearon un experimento factorial 2 5 con frac- 
tion 2 y el contraste definitorio ABODE. Los datos son 
los siguientes: 


A 

B 

C 

D 

E 

Respuesta 

-1 

-1 

-1 

-1 

1 

462 

1 

-1 

-1 

-1 

-1 

746 

-1 

1 

-1 

-1 

-1 

714 

1 

1 

-1 

-1 

1 

1070 

-1 

-1 

1 

-1 

-1 

474 

1 

-1 

1 

-1 

1 

832 

-1 

1 

1 

-1 

1 

764 

1 

1 

1 

-1 

-1 

1087 

-1 

-1 

-1 

1 

-1 

522 

1 

-1 

-1 

1 

1 

854 

-1 

1 

-1 

1 

1 

773 

1 

1 

-1 

1 

-1 

1068 

-1 

-1 

1 

1 

1 

572 

1 

-1 

1 

1 

-1 

831 

-1 

1 

1 

1 

-1 

819 

1 

1 

1 

1 

1 

1104 


15.34 Considere el ejercicio 15.33. Construya otro 
2 6 ~ ,! que sea diferente del diseno elegido en el ejercicio 


15.33. 


15.35 Para el ejercicio 15.33, proporcione todos los 
alias para los seis efectos principales. 


15.36 En Myers y Montgomery (2002) se analiza una 
aplicacion en la cual a un ingeniero le interesan los 
efectos del agrietamiento de una aleacion de titanio. 
Los tres factores son A, temperatura; B, contenido de 
titanio; y C, cantidad de refinador en grano. Los si- 
guientes datos son una parte del diseno y la respuesta, 
que es la longitud de las grietas inducida en la muestra 
de la aleacion. 


A B 

-1 -1 

1 1 

1 -1 

-1 1 


C Respuesta 

^1 0.5269 

-1 2.3380 

1 4.0060 

1 3.3640 


a) ^Cual es la relation definitoria? 


Ejecute un analisis de varianza sobre los efectos princi- 
pales, y las interacciones de dos factores; suponga que 
las interacciones de tres o mas factores son desprecia- 
bles. Use a = 0.05. 

15.32 Considere un diseno 2 5 " * 1 * con los factores A, B, 
C, D y E. Construya el diseno comenzando con uno 2 4 
y use E = ABCD como el generador. Obtenga todos 
los alias. 

15.33 Hay seis factores y solo pueden usarse 8 puntos 
de diseno. Construya uno 2 6 ~ 3 , comenzando con 2 3 , y 
utilice D = AB, E = — AC y F= BC como generadores. 


b) De los alias de los tres efectos principales, con la 
suposicion de que las interacciones de dos factores 
pueden ser reales. 

c) Si se acepta que las interacciones son despreciables, 
^cual sera el factor principal mas importante? 

d) Para el factor obtenido en el inciso c), £en que nivel 
sugerirfa el lector que el factor estuviera para la pro- 
duction final, alto o bajo? 

e) ^En que niveles sugerirfa el lector que los demas 
factores estuvieran para la production final? 

/) f,Que riesgos hay en las recomendaciones que el lector 
hizo en los incisos e) y /)? Responda con amplitud. 


15.10 Fracciones superiores y disenos exploratorios 

Algunas situaciones industriales requieren que el analista determine cuales factores, de 
entre un mimero grande de ellos, tienen un efecto sobre alguna respuesta importante. 
Los factores pueden ser cualitativos o variables de clase, variables de regresion, o una 
mezcla de ambas. El procedimiento analftico quizas requiera analisis de varianza, 
regresion, o ambos. Es frecuente que el modelo de regresion que se emplee implique 
solo los efectos lineales principales; aunque es posible estimar algunas interacciones. 
La situation exige la exploration de variables, y los disenos experimentales resultantes 
se denominan disenos exploratorios. Es claro que los candidatos viables son los 
disenos ortogonales de dos niveles saturados o casi saturados. 

Resolucion del diseno 

Con frecuencia, se clasifican los disenos ortogonales de dos niveles, de acuerdo con 
su resolucion, y esta queda determinada por la siguiente definition. 
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Definition 15.1: 


La resolucion de un diseiio ortogonal de dos niveles es la longitud de la interac- 
tion mas pequena (menos compleja), de entre el conjunto de contrastes definito- 
rios. 


Si el diseiio se construye como factorial completo o fraccionario [ya sea 2 k o 2 k ~ p 
(p = 1 , 2, , k — 1)], el concepto de resolucion del diseiio es una ayuda para deter- 
minar el efecto de los alias. Por ejemplo, un diseiio con resolucion II seria de poca 
utilidad, ya que habria al menos una instancia de alias entre un efecto principal y 
otro. Un diseiio con resolucion III tendria todos sus efectos principales (lineales) 
ortogonales entre si. No obstante, habra algunos alias entre los efectos lineales y las 
interacciones de dos factores. Entonces, queda claro que si el analista esta interesa- 
do en estudiar los efectos principales (lineales en el caso de la regresion) y no hay 
interacciones de dos factores, entonces se requiere un diseiio cuya resolucion sea de 
al menos III. 


15.11 Construccion de disenos con resoluciones III y IV, 
con 8, 16 y 32 puntos de diseno 

Para 2 a 7 variables con 8 puntos de diseiio, es posible construir disenos utiles con 
resoluciones III y IV. Se comienza sencillamente con un factorial 2 3 que haya sido 
saturado simbolicamente con interacciones. 


£1 

£2 

£3 

£l£2 

£4X3 

£2 £3 

£l£ 2£3 

-1 

-1 

-1 

1 

1 

1 

-1 ' 

1 

-1 

-1 

-1 

-1 

1 

1 

-1 

1 

-1 

-1 

1 

-1 

1 

-1 

-1 

1 

1 

-1 

-1 

1 

1 

1 

-1 

1 

-1 

-1 

-1 

1 

-1 

1 

-1 

1 

-1 

-1 

-1 

1 

1 

-1 

-1 

1 

-1 

1 

1 

1 

1 

1 

1 

1 


Es claro que un diseno con resolucion III se puede construir tan solo reemplazando 
las columnas de las interacciones por efectos principales nuevos para las siete varia- 
bles. Por ejemplo, si se define 


£4 = X1X2 
£5 = £ i £3 
£6 = £2 £3 
£7 = £ l £ 2£3 


(contraste dcfinitorio ABD) 
(contraste definitorio ACE) 
(contraste definitorio BCF) 
(contraste definitorio ABCG ) 


y se obtiene una fraction 2 -4 de un factorial 2 7 . Las expresiones anteriores identifi- 
can los contrastes definitorios elegidos. Resultan once contrastes definitorios adicio- 
nales y todos contienen al menos tres letras. Asi, el diseiio es de resolucion III. Es 
claro que si se comienza con un subconjunto de columnas aumentadas y se concluye 
con un diseiio que implica menos de siete variables de diseiio, el resultado es un 
diseno de resolucion III en menos de siete variables. 

Es posible construir un conjunto similar de disenos posibles para 16 puntos de 
diseno, comenzando con uno 2 4 saturado con interacciones. Las definiciones de las 
variables que corresponden a estas interacciones producen disenos de resolucion III 
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Tabla 15.19: Algunos disenos 2 fc p de resoluciones III, IV y V 


Numero de 


Numero de 


factores 

Diseno 

puntos 


Generadores 

3 

9 3-l 

L III 

4 

C = 

± AB 

4 

9 4 — 1 
Z IV 

8 

D = 

± ABC 

5 

9 5-2 

L IV 

8 

D = 

± AB- E = ± AC 


9 6 -l 

L VI 

32 

F = 

±BCD 

6 

9 6 — 2 
Z VJ 

16 

E = 

± ABC- F = ±BCD 


9 6 — 3 
Z J/J 

8 

D = 

± AB-, F = ± BC] E = ±AC 


2 7 " 1 

L VII 

64 

G = 

± ABCDEF 

7 

9 7— 2 
Z JV 
9 7-3 
L IV 

32 

16 

E = 

E = 

± ABC] G = ± ABDE 
± ABC] F = ± BCD] G = ± ACD 


9 7—4 
Z III 

8 

D = 

± AB] E = ± AC] F = ± BC] G=± ABC 


9 8— 2 
z v 

64 

G = 

± ABCD] H = ± ABEF 

8 

9 8 — 3 
Z /V 

32 

F = 

± ABC] G = ± ABD] H = ± BCDE 


9 8-4 

Z JV 

16 

E = 

± BCD] F = ± ACD] G = ± ABC] H = ± ABD 


a traves de 15 variables. En forma similar, se pueden construir disenos que conten- 
gan 32 corridas, comenzando con uno 2 5 . 

La tabla 15.19 proporciona al usuario los lineamientos para construir 8, 16, 32 y 
64 disenos puntuales, con resoluciones III, IV e incluso V. La tabla da el numero de 
factores, el numero de corridas y los generadores que se emplean para producir los 
disenos 2 k ~ p . El generador dado se emplea para aumentar el factorial completo 
que contiene k — p factores. 


La tecnica de duplication 

Es posible ampliar los disenos de resolucion III ya descritos, para producir un diseno 
de resolucion IV, usando la tecnica de duplicacion. En esta tecnica se duplica el 
tamano del diseno sumando los negativos de la matriz de diseno construida segiin 
se describio anteriormente. La tabla 15.20 muestra un diseno de resolucion IV con 
16 corridas en 7 variables, construido con la tecnica de duplicacion. Es evidente que 
podemos construir disenos con resolucion IV que incluyan hasta 15 variables, con 
el empleo de la tecnica de duplicacion sobre disenos desarrollada con el diseno 2 4 
saturado. 

Este diseno se construye “duplicando” una fraction g de uno 2 . La ultima co- 
lumna se agrega como un septimo factor. En la practica, es frecuente que la ultima 
columna juegue el papel de variable bloqueadora. No es raro que la tecnica de dupli- 
cacion se emplee en experimentation secuencial, en la cual se analizan los datos del 
diseno inicial de resolucion III. Entonces, con base en el analisis, el experimentador 
percibe si es necesario un diseno con resolucion IV. Como resultado, quiza sea nece- 
saria una variable bloqueadora debido a la separation en el tiempo que ocurre entre 
las dos partes del experimento. Ademas de la variable bloqueadora, el diseno final es 
un experimento 2 6 con fraction 4. 
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Tabla 15.20: Diseno de resolution IV con dos niveles, con la tecnica de duplication 


*1 

*2 

*3 

*4 — X\X 2 X 5 - 

= 2 : 1*3 

*6 = * 2*3 

*7 

-1 

-1 

-1 

1 

1 

1 

-1 

1 

-1 

-1 

-1 

-1 

1 

-1 

-1 

1 

-1 

-1 

1 

-1 

-1 

-1 

-1 

1 

1 

-1 

-1 

-1 

1 

1 

-1 

1 

-1 

-1 

-1 

1 

-1 

1 

-1 

1 

-1 

-1 

-1 

1 

1 

-1 

-1 

1 

-1 

1 

1 

1 

1 

1 

1 

-1 

Duplication 

1 

1 

1 

-1 

-1 

-1 

1 

-1 

1 

1 

1 

1 

-1 

1 

1 

-1 

1 

1 

-1 

1 

1 

1 

1 

-1 

-1 

1 

1 

1 

-1 

-1 

1 

-1 

1 

1 

1 

-1 

1 

-1 

1 

-1 

1 

1 

1 

-1 

-1 

1 

1 

-1 

1 

-1 

-1 

-1 

-1 

-1 

-1 

1 


15.12 Otros disenos de resolucion III con dos niveles; 
los disenos de Plackett-Burman 


Una familia de disenos desarrollada por Plackett y Burman (vease la Bibliografia) 
vino a llenar los huecos que existian con los factoriales fraccionarios. Estos son utiles 
con muestras de tamano 2 r (es decir, incluyen muestras de tamano 4, 8, 16, 32, 
64, . . . ). Los disenos de Plackett y Burman requieren 2r puntos de diseno, por lo que 
se dispone de disenos de tamano 12, 20, 24, 28, etcetera. Estos disenos de Plackett- 
Burman de dos niveles tienen resolucion III y son muy faciles de construir. Para 
cada tamano de muestra se dan “renglones basicos” . El numero de renglones de sig- 
nos + y — es n — 1. Para construir las columnas de la matriz de diseno, se comienza 
con el renglon basico y se hace una permutation riclica sobre las columnas, hasta que 
queden formadas k (el numero deseado de variables) columnas. Despues, se llena el 
ultimo renglon con signos negativos. El result ado sera un diseno de resolucion III con 
k variables (ft = 1, 2, ... , N). Los renglones basicos son los siguientes: 


IV = 12 + + - + + 

N = 16 + + + + - 

N = 20 + + -- + 

N = 24 + + + + + 


+ ---+- 
+ - + + -- + 

+ + + “ + - + 

- + - + + 


+ +- 

+ - + - 


Ejemplo 15.11:1 Construya un diseno exploratorio de dos niveles con 6 variables que contengan 12 
puntos de diseno. 

Solucion: Comience con el renglon basico en la columna initial. La segunda columna se forma 
llevando la entrada inferior de la primera columna a la parte superior de la segunda, 
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y repitiendo la primera. La tercera columna se forma del mismo modo, utilizando las 
entradas de la segunda columna. Cuando haya un numero suficiente de columnas, 

sencillamente se llena el ultimo renglon con signos negativos. El diseno 
resultante es como sigue: 


Xi 

X2 


X4 

X 5 

Xq 

+ 

- 

+ 

- 

- 

- 

+ 

+ 

- 

+ 

- 

- 

- 

+ 

+ 

- 

+ 

- 

+ 

- 

+ 

+ 

- 

+ 

+ 

+ 

- 

+ 

+ 

- 

+ 

+ 

+ 

- 

+ 

+ 

- 

+ 

+ 

+ 

- 

+ 

- 

- 

+ 

+ 

+ 

- 

- 

- 

- 

+ 

+ 

+ 

+ 

- 

- 

- 

+ 

+ 

— 

+ 

— 

— 

— 

+ 


Los diseiios de Plackett-Burman son populares en la industria para situaciones de 
exploration. Como diseiios de resolution III, todos los efectos lineales son ortogona- 
les. Para cualquier tamaiio de muestra, el usuario dispone de un diseno para k = 2, 
3, . . . , N — 1 variables. 

La estructura de alias para el diseno de Plackett-Burman es muy complicada, 
por lo que el usuario no puede construir el diseno con un control completo sobre 
ella, como si era posible en el caso de diseiios 2 fc o 2 k ~ p . Sin embargo, en el caso de 
modelos de regresion, el diseno de Plackett-Burman acepta interacciones (aunque no 
sean ortogonales) cuando se dispone de suficientes grados de libertad. 


15.13 Diseno de parametros robustos 

En este capitulo se destaco el concepto del empleo del diseno de experimentos (de) 
para adquirir conocimientos sobre procesos de ingenieria y cientificos. En el caso en 
que un proceso incluya un producto, es posible usar el de para mejorar el producto 
o la calidad. Como se dijo en el capitulo 1, se ha dado mucha importancia al uso de 
metodos estadisticos en la mejoria de productos. Durante las decadas de 1980 y 1990 
un aspecto importante de tal mejoramiento fue reforzar la calidad en los procesos y 
productos, en la etapa de investigation o de diseno del proceso. Es frecuente que se 
requiera del de en el desarrollo de procesos con las propiedades siguientes: 

1. Insensibles (robustos) a las condiciones ambientales. 

2 . Insensibles (robustos) a factores que dificultan el control. 

3 . Proporcionan variation minima en cuanto al desempeiio. 

Estos metodos se denominan con frecuencia diserio de parametros robustos (vease 
Taguchi, Taguchi y Wu, y Kackar, en la Bibliografia) . En este contexto, el termino 
diserio se refiere al diseno de los procesos o sistema; en tanto que parametros se re- 
fiere a los parametros en el sistema. Estos son lo que hemos estado llamando factores 
o variables. 
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Queda claro que las metas 1, 2 y 3 mencionadas son muy nobles. Por ejemplo, 
un ingeniero petrolero puede tener una buena mezcla de gasolina que se desempene 
muy bien en condiciones ideales y estables. Sin embargo, el desempeno quiza se 
deteriorara debido a cambios en las condiciones ambientales, como tipo de conduc- 
tor, factores climaticos, tipo de motor, etcetera. Un cientffico en una compama de 
alimentos quiza tenga una mezcla para pasteles que sea muy buena, a menos que 
el usuario no siga con exactitud las instrucciones acerca de temperatura del horno, 
tiempo de coccion, y otras parecidas. Un producto o proceso cuyo desempeno sea 
consistente cuando se expone a esas condiciones ambientales cambiantes se denomi- 
na producto robusto o proceso robusto. [Vease Myers y Montgomery (2002), 
en la Bibliografi'a.] 

Variables de control y ruido 

Taguchi hace entasis en utilizar dos tipos de variables de diseno en un estudio. Iilsos 
son los factores de control y los factores de ruido. 


Definition 15.2: 


Los factores de control son variables que se pueden controlar tanto en el ex- 
perimento como en el proceso. Los factores de ruido son variables que pueden 
controlarse o no en el experimento, pero no pueden controlarse en el proceso (o al 
menos no bien). 


Un enfoque importante es usar en el mismo experimento variables de control y 
variables de ruido, como efectos fijos. En este sentido, es frecuente usar disenos o 
arreglos ortogonales. 


Meta del diseno de La meta del diseno de parametros robustos es elegir los niveles de variables de 
parametros control (es decir, el diseno del proceso) que sean mas robustas (insensibles) a los 
robustos cambios en las variables de ruido. 

Debe observarse que los cambios en las variables de ruido en realidad implican 
cambios durante el proceso: cambios en el campo, en el ambiente, en el manejo o uso 
por parte del consumidor, etcetera. 


El arreglo de productos 

Un enfoque hacia el diseno de experimentos, que incluye variables tanto de control 
como de ruido, es el uso de un plan experimental que requiera un diseno ortogonal 
tanto para las variables de control como de ruido, por separado. Entonces, el expe- 
rimento complete es tan solo el producto o cruce de estos dos disenos ortogonales. 
El siguiente es un ejemplo sencillo de un arreglo de productos con dos variables de 
control y dos de ruido. 


Ejemplo 15.12:1 En el arti'culo “The Taguchi Approach to Parameter Design”, por D. M. Byrne y 
S. Taguchi, en Quality Progress , de diciembre de 1987, los autores estudian un 
ejemplo interesante en el que se busca un metodo para ensamblar un corrector elec- 
trometrico a un tubo de nailon, que genera el rendimiento necesario para el empuje 
apropiado para lograr una aplicacion en un motor de automovil. El objetivo es en- 
contrar condiciones controlables que maximicen la fuerza del empuje. Entre las va- 
riables controlables estan A, el espesor de la pared del conector; y B , la profundidad 
de insertion. Hay varias variables que durante la operation rutinaria no se pueden 
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controlar, aunque durante el experimento si. Entre ellas estan C, condiciones del 
tiempo; y D , condiciones de temperatura. Se toman tres niveles para cada variable 
de control, y dos para cada variable de ruido. El resultado del arreglo cruzado es 
el siguiente. El arreglo de control es de 3 x 3, y el de ruido es un factorial 2 2 que 
resulta familiar con (1), c, d y cd , que representan las combinaciones de factores. El 
proposito del factor de ruido es crear la clase de variabilidad en la respuesta, fuerza 
de empuje, que podria esperarse con el proceso durante la operacion cotidiana. En 
la tabla 15.21 se muestra el diseno. 


Tabla 15.21: Diseno para el ejemplo 15.12 


B (profundidad) 


Baja 

Media 

Alta 

(1) 

(1) 

(1) 

c 

c 

c 

Delgado ^ 

d 

d 

cd 

cd 

cd 

(1) 

(1) 

(1) 

c 

c 

c 


A (espesor de pared) Medio 

d 

cd 

d 

cd 

d 

cd 


(i) 

(i) 

(i) 


c 

c 

c 

Grueso 

d 

d 

d 


cd 

cd 

cd 


Analisis 


Hay varios procedimientos para analizar el arreglo de productos. El enfoque citado 
por Taguchi y adoptado por muchas companias de Estados Unidos relacionadas con 
procesos de manufactura, implica, inicialmente, la formation de un estadistico resu- 
mido con cada combination en el arreglo de control. Dicho estadistico resumido se 
denomina razon serial a ruido. Suponga que se denota con y i, y 2 , ■ ■ ■ , y ni un conjun- 
to comun de corridas experimentales para el arreglo de ruido en una combination de 
arreglo de control fijo. La tabla 15.22 describe algunas de las razones comunes SN. 


Tabla 15.22: Razones SN comunes para distintos objetivos 

Razon SN 


Objetivos 

Maximizar la respuesta 

SN l = 

Lograr el objetivo 

SN t = 

Minimizar la respuesta 

SN s = 


-iOlog^ 

10 log (g) 


l—l 


- 101 °g ( i E vf 
2=1 
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Para cada uno de los casos anteriores, se desea encontrar la combination de las 
variables de control que maximice SN. 


Ejemplo 15.13:1 Estudio de caso En un experimento que se describe en Understanding Industrial 
Designed Experiments , por Schmidt y Launsby (vease la Bibliograffa), en una planta 
de ensamble de circuitos integrados se lleva a cabo la optimization de un proceso de 
soldadura. Las partes se insertan a mano o en forma automatica en una tarjeta con 
un circuito impreso en ella. Una vez que se han insertado, la tarjeta se coloca en 
una maquina soldadora de onda que se emplea para conectar todos los elementos del 
circuito. Las tarjetas se colocan en una banda y pasan por una serie de etapas. Se 
sumergen en una mezcla en movimiento para quitar el oxido. Para minimizar el pan- 
deo se calientan antes de aplicar la soldadura. Esta se realiza conforme las tarjetas 
se mueven a traves de la onda de soldar. El objetivo del experimento es minimizar 
el numero de defectos de soldadura por millon de uniones. El factor y los niveles de 
control se dan en la tabla 15.23. 


Tabla 15.23: Factores de control para el ejemplo 15.13 


Factor 

(-1) 

(+1) 

A , temperatura de la vasija de soldar (°F) 

480 

510 

B, velocidad de la banda (pies/min) 

7.2 

10 

C, densidad de la mezcla 

0.9° 

1.0° 

D , temperatura de precalentamiento 

150 

200 

E, altura de onda (pulg) 

0.5 

0.6 


Es facil controlar estos factores en el nivel experimental, pero diffcil en extremo 
en el nivel de proceso o de planta. 

Factores de ruido: Tolerancias de los factores de control 

Es frecuente que en los procesos como este, uno de los factores naturales de ruido 
sean las tolerancias de los factores de control. Por ejemplo, en el proceso real on 
line , la temperatura de la vasija de soldar y la velocidad de la banda son diffciles 
de controlar. Se sabe que el control de la temperatura esta dentro de ±5 °F, y que 
el control de la velocidad de la banda esta dentro de ±0.2 pies/min. Es muy conce- 
bible que la variabilidad de la respuesta del producto (desempeno de la soldadura) 
se incremente debido a la incapacidad de controlar esos dos factores en sus niveles 
nominales. El tercer factor de ruido es el tipo de ensamble involucrado. En la prac- 
tica, se emplean dos tipos de ensambles. Asf, se tienen los factores de ruido que se 
dan en la tabla 15.24. 

Tanto el arreglo de control (arreglo interior) y el de ruido (arreglo exterior) se 
eligieron para ser factoriales fraccionarios: el primero es 4 de uno 2 , y el segundo 
2 de uno 2A . El arreglo cruzado y los valores de respuesta se presentan en la tabla 
15.25. Las tres columnas primeras del arreglo interior representan un 2 3 . Las colum- 
nas estan formadas por D = —AC y E = —BC. Asf, las interacciones definitorias 
para el arreglo interior son ACD , BCE y ADE. El arreglo exterior es una fraction de 
2 3 fraccionario de resolution III. Observe que cada punto del arreglo interior contie- 
ne corridas del arreglo exterior. Asf, se observan cuatro valores de respuesta en cada 
combination del arreglo de control. La figura 15.16 muestra graficas que revelan el 
efecto que tienen la temperatura y la densidad sobre la respuesta media. 
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Tabla 15.24: Factores de ruido para el ejemplo 15.13 


Factor 

(-1) 

(+1) 

A* : tolcrancia de la temperatura dc la vasija de soldar (°F) 

-5° 

-5° 

(desviacion de la nominal) 

B*, tolerancia de deslizamiento de la banda (pies/min) 

-0.2 

+0.2 

(desviacion del ideal) 

C*, tipo de ensamble 

1 

2 


Tabla 15.25: Arreglos cruzados y valores de la respuesta para el ejemplo 15.13 


Arreglo interior Arreglo exterior 


A 

B 

C 

D 

E 

(1) 

a*b* 

a*c* 

b*c* 

SN s 

1 

1 

1 

-1 

-1 

194 

197 

193 

275 

-46.75 

1 

1 

-1 

1 

1 

136 

136 

132 

136 

-42.61 

1 

-1 

1 

-1 

1 

185 

261 

264 

264 

-47.81 

1 

-1 

-1 

1 

-1 

47 

125 

127 

42 

-39.51 

-1 

1 

1 

1 

-1 

295 

216 

204 

293 

-48.15 

-1 

1 

-1 

-1 

1 

234 

159 

231 

157 

-45.97 

-1 

-1 

1 

1 

1 

328 

326 

247 

322 

-45.76 

-1 

-1 

-1 

-1 

-1 

186 

187 

105 

104 

-43.59 


La temperatura y la densidad del flujo son los factores mas importantes. Parecen 
influir tanto en ( SN)s como en y. Por fortuna, la temperatura elevada y la densidad 
baja del flujo son preferibles tanto para ( SN)s como para la respuesta media. Asf, 
las condiciones “optimas” son 

temperatura de la soldadura = 510 °F, densidad del flujo = 0.9°. 


Temperatura 


Densidad 



Alta 

(+ 1 ) 



Figura 15.16: Grafica que muestra la influencia de los factores sobre la respuesta media. 
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Enfoques alternatives al diseno de parametros robustos 

Un enfoque que sugieren muchos estudiosos consiste en modelar la media y la va- 
rianza muestrales por separado, en vez de combinar los dos conceptos separados 
mediante una razon seiial a ruido. Con frecuencia, el modelado separado ayuda al 
experimentador a obtener una mejor comprension del proceso que interviene. En el 
ejemplo siguiente se ilustra este enfoque con el experimento del proceso de soldadura. 


Ejemplo 15.14:1 Considere los datos del ejemplo 15.13. Un analisis alternative es ajustar modelos se- 
parados para la media y y la desviacion estandar muestral. Suponga que para los 
factores de control se usa el codigo habitual +1 y — 1. Con base en la importancia 
aparente de la temperatura de la vasija de soldar xi, y la densidad del flujo X 2 , el 
modelo de la regresion lineal sobre la respuesta (numero de errores por millon de 
uniones) produce el modelo 

y = 197.125 - 27.5x1 + 57.875x 2 . 

Para encontrar el nivel mas robusto de la temperatura y densidad del flujo, es con- 
veniente establecer un compromiso entre la respuesta media y la variabilidad, lo 
cual requiere modelar esta ultima. Una herramienta importante para hacerlo es la 
transformation logarftmica (vease Bartlett y Kendall o Carroll y Ruppert): 

Ins 2 = 70 + 7 i(xi) + 72 ( 2 : 2 ). 

Este proceso de modelado produce el siguiente resultado: 

hTT 2 = 6.7692 - 0.8178xi + 0.6877x 2 . 

El analisis que es importante para el cientffico o el ingeniero consiste en utilizar 
los dos modelos en forma simultanea. Es de mucha utilidad un enfoque grafico. La 
figura 15.17 muestra al mismo tiempo graficas sencillas de la media y desviacion es- 
tandar. Como era de esperar, la ubicacion de la temperatura y la densidad del flujo 
que minimizan el numero medio de errores es la misma que aquella que minimiza la 
variabilidad, es decir, temperatura alta y densidad del flujo baja. El enfoque grafico 
de la respuesta multiple permite que el usuario perciba intercambios entre la media del 
proceso y su variabilidad. Para este ejemplo, el ingeniero quizas este insatisfecho con 
las condiciones extremas de la temperatura de la soldadora y la densidad de flujo. 
La figura ofrece una estimation de las condiciones de la media y la variabilidad que 
indican cuanto se pierde conforme se aleja de las condiciones optimas a otras inter- 
medias. 


Ej ercicios 


15.37 Use los datos de limpieza del carbon del ejer- 
cicio 15.2 de la pagina 622 para ajustar un modelo del 
tipo 


X\. porcentaje de solidos: 8; 12 
X 2 - tasa de flujo: 150; 250 gal/min 

£3: pH: 5; 6 


b(l ) — A) + Pix\ + P 2 X 2 + P 3 X 3 , Centre y de escala a las variables de las unidades de dise- 

no. Asimismo, realice una prueba para la falta de ajuste, 
y haga comentarios acerca de lo adecuado del modelo 
de regresion lineal. 


donde los niveles son 


Ejercicios de repaso 
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Figura 15.17: Media y desviacion estandar para el ejemplo 15.14. 


15.38 Se utiliza un plan factorial 2 5 para construir 
un modelo de regresion que contenga coeficientes de 
primer orden y terminos de modelado para todas las 
interacciones de dos factores. Para cada factor se reali- 
zan corridas duplicadas. Construya la tabla de analisis 
de varianza que muestre los grados de libertad para la 
regresion, falta de ajuste y error puro. 


Ejercicios de repaso 

15.41 Se emplea un diseiio de Plackett-Burman para 
estudiar las propiedades reologicas de los copollmeros 
de peso molecular elevado. En el experimento se fijan 
dos niveles para cada una de seis variables. La res- 
puesta es la viscosidad del poli'mero. Los datos fueron 
analizados en el Centro de Consulton'a en Estadi'sti- 
ca del Instituto Politecnico y Universidad Estatal de 
Virginia, por personal del Departamento de Ingenien'a 
Qui'mica de la universidad. Las variables son las si- 
guientes: qui'mica del bloque duro aq, tasa de flujo de 
nitrogeno x 2 , tiempo de calentamiento x 3 , porcentaje 
de compresion X 4 , observaciones alta y baja X 5 , defor- 
mation porcentual xq. A continuation se presentan los 
datos. Construya una ecuacion de regresion que rela- 
tione la viscosidad con los niveles de las seis variables. 
Realice pruebas t para todos los efectos principales. 
Recomiende los factores que deban conservarse para 
estudios futuros y aquellos que no. Emplee la media 
cuadratica residual (5 grados de libertad) como medida 
del error experimental. 


15.39 Considere el factorial 2 7 con la fraction jg que 
se estudio en la section 15.11. Liste los 11 contrastes 
definitorios adicionales. 

15.40 Construya un diseiio de Plackett-Burman pa- 
ra 10 variables que contengan 24 corridas experimen- 
tales. 


Obs. 


x 2 

X 3 

X4 

X 5 

Xq 

y 

1 

1 

-1 

1 

-l 

-1 

-l 

194, 700 

2 

1 

1 

-1 

l 

-1 

-l 

588, 400 

3 

-1 

1 

1 

-l 

1 

-l 

7, 533 

4 

1 

-1 

1 

l 

-1 

l 

514, 100 

5 

1 

1 

-1 

l 

1 

-l 

277, 300 

6 

1 

1 

1 

-l 

1 

l 

493, 500 

7 

-1 

1 

1 

l 

-1 

l 

8,969 

8 

-1 

-1 

1 

l 

1 

-l 

18, 340 

9 

-1 

-1 

-1 

l 

1 

l 

6,793 

10 

1 

-1 

-1 

-l 

1 

l 

160, 400 

11 

-1 

1 

-1 

-l 

-1 

l 

7, 008 

12 

-1 

-1 

-1 

-l 

-1 

-l 

3,637 


15.42 Una compama petrolera grande del suroeste 
lleva a cabo experimentos de manera regular para pro- 
bar aditivos de los fluidos de perforation. La viscosidad 
plastica es una medicion reologica que refleja el espesor 
del fluido. A este se agregan varios polimeros con la 
finalidad de incrementar su viscosidad. Los que siguen 
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son datos de dos polfmeros que se usaron en dos niveles 
cada uno, y la viscosidad medida. La concentration 
de los polfmeros se indica como “baja” y “alta”. Haga 
un analisis de un experimento factorial 2 2 . Pruebe los 
efectos e interaction de los dos polfmeros. 


Polfmero 1 


Polfmero 2 


Baja 

Alta 


Baja 

3 

3.5 

11.3 

12.0 

Alta 

11.7 

12.0 

21.7 

22.4 


15.43 Se analiza un experimento factorial 2 2 en el 
Centro de Consultorfa en Estadfstica del Instituto Po- 
litecnico y Universidad Estatal de Virginia. El cliente 
es un miembro del Department of Housing, Interior 
Design, and Resource Management. A este le intere- 
sa comparar el arranque en frfo contra el precalenta- 
miento de los hornos, en terminos de la energfa total 
que se transmite al producto. Ademas, se comparan las 
condiciones de la convection en modo regular. Se hicie- 
ron cuatro corridas experimentales con cada una de las 
cuatro combinaciones de los factores. A continuation 
se presentan los datos del experimento: 


Precalentamiento Frfo 


Modo de 

618 

619.3 

575 

573.7 

conveccion 

629 

611 

574 

572 

Modo 

581 

585.7 

558 

562 

regular 

581 

595 

562 

566 


Haga un analisis de varianza para estudiar la interac- 
tion y los efectos principales. Saque sus conclusiones. 

15.44 Construya un diseno que incluya 12 corridas 
en las que se varfen 2 factores con 2 niveles cada uno. 
El lector esta restringido a utilizar bloques de tamano 
dos, y debe ser capaz de realizar pruebas de significan- 
cia sobre ambos efectos principales y el efecto de la 
interaction. 

15.45 En el estudio denominado The Use of Regression 
Analysis for Correcting Matrix Effects in the X-Ray 
Fluorescence Analysis of Pyrotechnic Compositions , pu- 
blicado en Proceedings of the Tenth Conference on the 
Design of Experiments in Army Research Development 
and Testing, ARO-D Report 65-3 (1965), se describe 
un experimento donde se hicieron variar las concen- 
traciones de 4 componentes de una mezcla impulsora y 
los pesos de partfculas finas y gruesas en el compuesto 
acuoso. Los factores A, B, C y D, cada uno en dos 
niveles, representan las concentraciones de los 4 com- 
ponentes; y los factores E y F, tambien en dos niveles, 
representan los pesos de las partfculas finas y gruesas 
que hay en el compuesto. El objetivo del analisis es 
determinar si las razones de la intensidad de los rayos 
X, asociadas con el componente 1 del combustible, es- 
taban influidas en forma significativa por la variation 


de las concentraciones de los distintos componentes y 
los pesos de las partfculas segun su tamano en la mez- 
cla. Se utilizo un experimento factorial 2 6 con fraction 
|, con los contrastes definitorios ADE, BCE y ACF. 
Los datos siguientes representan el total de un par de 
lecturas de la intensidad: 


Lote 

Combination 
de tratamientos 

Total de la 
razon de intensidad 

1 

abef 

2.2480 

2 

cdef 

1.8570 

3 

(1) 

2.2428 

4 

ace 

2.3270 

5 

bde 

1.8830 

6 

abed 

1.8078 

7 

adf 

2.1424 

8 

bef 

1.9122 


El error cuadratico medio agrupado con ocho grados de li- 
bertad es 0.02005. Analice los datos con el empleo de un 
nivel de significancia de 0.05, para determinar si las con- 
centraciones de los componentes y los pesos de las 
partfculas finas y gruesas, presentes en el compuesto, 
tienen una influencia significativa sobre las razones de 
intensidad asociadas con el componente 1. Suponga 
que no existe interaction entre los 6 factores. 

15.46 Haga el esquema de bloques para un experi- 
mento factorial 2 7 con ocho bloques, cada uno de tama- 
no 16, usando ABCD, CDEFG y BDF, como contras- 
tes definitorios. Indique cuales interacciones resultan 
sacrificadas por completo en el experimento. 

15.47 Utilice la tabla 15.19 para construir un diseno 
de 16 corridas con 8 factores, que tenga resolution IV. 

15.48 En el diseno del ejercicio de repaso 15.47, com- 
pruebe que el diseno en efecto tiene resolution IV. 

15.49 Construya un diseno que contenga nueve puntos 
de diseno, sea ortogonal, contenga un total de 12 corri- 
das, 3 grados de libertad para el error de repetition, y 
permita una prueba de falta de ajuste para la curvatu- 
ra cuadratica pura. 

15.50 Considere un diseno 2']f[ con 2 corridas cen- 
trales. Considere y / como la respuesta promedio en el 
parametro de diseno, y y o como la respuesta promedio 
en el centro del diseno. Suponga que el verdadero mo- 
delo de la regresion es 

E(y) = f3 0 + ftn + /3 2 x 2 + /3 3 x 3 

+ fhix\ + f3 22 xl + p 33 xl. 

a) Proporcione (y compruebe) E(yf — yo). 

b) Explique lo que haya aprendido del resultado del 
inciso a). 


15.14 Nociones erroneas y riesgos potenciales 
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15.14 Nociones erroneas y riesgos potenciales; 

relacion con el material de otros capitulos 

En el empleo de experimentos factorials fraccionarios, una de las consideraciones 
mas importantes a la que el analista debe estar atento es la resolution del diseno. Un 
diseno de resolucion baja es mas pequeno (y, por lo tanto, menos costoso) que otro de 
resolution mayor. Sin embargo, se paga un precio por el diseno mas barato. El di- 
seno de menor resolucion tiene alias mas pesados que otro de resolucion mayor. Por 
ejemplo, si el investigador tiene la sospecha de que las interacciones de dos factores 
son importantes, entonces no deberia emplearse la resolucion III. Un diseno de reso- 
lucion III es estrictamente un plan de efectos principales. 



Capftulo 16 


Estadfstica no parametrica 


16.1 Pruebas no parametricas 

La mayori'a de los procedimientos de prueba de hipotesis que se presentaron en 
los capi'tulos anteriores se basan en la suposicion de que las muestras aleatorias se 
seleccionan de poblaciones normales. Por fortuna, la mayor parte de estas pruebas 
aun son confiables cuando experimentamos ligeras desviaciones de la normalidad, 
en particular cuando el tamano de la muestra es grande. Tradicionalmente, tales 
procedimientos de prueba se denominan metodos parametricos. En este capftulo 
consideramos varios procedimientos de prueba alternatives, llamados no parame- 
tricos o metodos de distribucion libre, que a menudo no suponen conocimiento 
de ninguna clase acerca de las distribuciones de las poblaciones fundamentales, ex- 
cepto quiza que estas son continuas. 

Los procedimientos no parametricos o de distribucion libre se utilizan con mayor 
frecuencia por los analistas de datos. Hay muchas aplicaciones en la ciencia y la in- 
genierfa donde los datos se reportan no como valores de un continuo, sino mas bien 
en una escala ordinal tal que es bastante natural asignar rangos a los datos. De 
hecho, en este capftulo el lector notara muy pronto que los metodos de distribucion 
libre que se describen aquf implican un analisis de rangos. La mayori'a de los ana- 
listas encuentran que los calculos que se intervienen en los metodos no parametricos 
son muy atractivos e intuitivos. 

Un ejemplo donde se aplica una prueba no parametrica es el siguiente. Dos jue- 
ces deben clasificar cinco marcas de cerveza de alta calidad mediante la asignacion 
de un grado de 1 a la marca que se considera que tiene la mejor calidad global, un 
grado de 2 a la segunda mejor, etcetera. Entonces, se puede utilizar una prueba no 
parametrica para determinar donde existe algun acuerdo entre los dos jueces. 

Tambien debemos senalar que hay varias desventajas asociadas con las pruebas 
no parametricas. En primer lugar, no utilizan toda la informacion que proporciona la 
muestra y, por ello, ima prueba no parametrica sera menos eficiente que el procedi- 
miento parametrico correspondiente, cuando ambos metodos son aplicables. En conse- 
cuencia, para lograr la misma potencia, una prueba no parametrica requerira un tamano 
muestral mayor que el que requerirfa la prueba no parametrica correspondiente. 

Como indicamos antes, ligeras divergences de la normalidad tienen como resul- 
tado desviaciones menores del ideal para las pruebas parametricas estandar. Esto es 
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particularmente cierto para la prueba t y la prueba F. En el caso de la prueba t y la 
prueba F, el valor P citado tal vez sea ligeramente erroneo si existe una trasgresion 
moderada de la suposicion de normalidad. 

En resumen, si se puede aplicar tanto una prueba parametrica como una no 
parametrica al mismo conjunto de datos, deberfamos aplicar la tecnica parametrica 
mas eficiente. Sin embargo, debemos reconocer que las suposiciones de normalidad a 
menudo no se pueden justificar, y que no siempre tenemos mediciones cuantitativas. 
Es una fortuna que los estadisticos nos brinden diversos procedimientos no para- 
metricos utiles. Armado con las tecnicas no parametricas, el analista de datos tiene 
mas municiones para adaptar una variedad mas amplia de situaciones experimenta- 
les. Se debe seiialar que incluso bajo las suposiciones de la teoria normal estandar, las 
eficiencias de las tecnicas no parametricas son notablemente cercanas a las del pro- 
cedimiento parametrico correspondiente. Por otro lado, las divergencias serias de la 
normalidad hacen que el metodo no parametrico se vuelva mas eficiente que el pro- 
cedimiento parametrico. 


Prueba de signo 

El lector deberia recordar que los procedimientos que se estudian en la section 
10.7, para probar la hipotesis nula de que p = /io, son validos solo si la poblacion 
es aproximadamente normal o si la muestra es grande. Sin embargo, si n < 30 y la 
poblacion es decididamente no normal, debemos recurrir a una prueba no parame- 
trica. 

La prueba de signo se utiliza para probar hipotesis sobre una mediana pobla- 
cional. En el caso de muchos de los procedimientos no parametricos, la media se 
reemplaza por la mediana como el parametro de ubicacion pertinente bajo prueba. 
Recuerde que la mediana muestral se definio en la section 1.4. La contraparte po- 
blacional, que se denota con p, tiene una definition analoga. Dada una variable 
aleatoria X, p se define de modo que P[X > p) < 0.5 y P{X < p) < 0.5. En el 
caso continuo, 

P(X > p) = P(X <p) = 0.5. 

Por supuesto, si la distribution es simetrica, la media y la mediana poblacionales 
son iguales. Al probar la hipotesis nula Hq de que p = po contra una alternativa 
adecuada, sobre la base de una muestra aleatoria de tamano n, reemplazamos cada 
valor de la muestra que exceda a Po con un signo mas , y cada valor de la muestra 
menor que Po con un signo menos. Si la hipotesis nula es verdadera y la poblacion 
es simetrica, la suma de los signos mas deberia ser aproximadamente igual a la suma 
de los signos menos. Cuando un signo aparece con mas frecuencia de lo que deberia, 
con base solo en el azar, rechazamos la hipotesis de que la mediana poblacional p 
es igual a po- 

En teoria la prueba de signo se aplica tan solo en situaciones donde Po no puede 
ser igual al valor de cualquiera de las observaciones. Aunque hay una probabili- 
dad cero de obtener una observation muestral exactamente igual a po cuando la 
poblacion es continua, no obstante, en la practica ocurrira con frecuencia un valor 
muestral igual a po debido a una falta de precision al registrar los datos. Cuando se 
observan valores muestrales iguales a Po se excluyen del analisis y, en consecuencia, 
se reduce el tamano de la muestra. 

El estadistico de prueba adecuado para la prueba de signo es la variable aleatoria 
binomial X, que representa el numero de signos mas en nuestra muestra aleatoria. Si 
la hipotesis nula de que p = po es verdadera, la probabilidad de que un valor mues- 
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tral tenga como resultado un signo mas o uno menos es igual a 1/2. Por lo tanto, 
para probar la hipotesis nula de que p = po, en realidad probamos la hipotesis nula 
de que el numero de signos mas es un valor de una variable aleatoria que tiene la 
distribucion binomial con el parametro p = 1/2. Los valores Ppara las alternativas 
unilateral y bilateral se pueden calcular entonces con el uso de esta distribucion 
binomial. Por ejemplo, al probar 


Ho- P — Po, 

H\\ p < po, 

rechazaremos Hq a favor de Hi solo si la proportion de signos mas es bastante menor 
que 1/2; es decir, cuando el valor x de nuestra variable aleatoria es pequeno. Por lo 
tanto, si el valor Pque se calcula 

P = P(X < x cuando p = 1/2) 

es menor que o igual a algun nivel de significancia a preestablecido, rechazamos Hq 
a favor de Hi. Por ejemplo, cuando n = 15 y x = 3, encontramos de la tabla A.l 
que 


P = P(X < 3 cuando p = 1/2) = b 15, — ^ = 0.0176, 

por lo que la hipotesis nula p = Po se puede rechazar en realidad en el nivel de 
significancia de 0.05 pero no en el nivel 0.01. 

Para probar la hipotesis 


Ho- p — po, 

Hi- p > po, 

rechazamos Hq a favor de Hi solo si la proportion de signos mas es bastante mayor 
que 1/2; es decir, cuando x es grande. De aquf, si el valor Pcalculado 

P — P(X > x cuando p = 1/2) 

es menor que a, rechazamos Hq a favor de Hi. Finalmente, para probar la hipotesis 

H 0 : p = po, 

Hi' / ^ -/ po, 

rechazamos Hq a favor de Hi cuando la proportion de signos mas es significativa- 
mente menor o mayor que 1/2. Esto, por supuesto, es equivalente a que x sea bas- 
tante pequena o bastante grande. Por lo tanto, si x < n/2 y el valor Pcalculado 

P = 2 P(X < x cuando p = 1/2) 

es menor o igual que a, o si x > n/2 y el valor P calculado 

P = 2 P(X > x cuando p = 1/2) 


es menor o igual que a, rechazamos Ho a favor de Hi. 
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Ejemplo 16.1: 


Solucion: 


Siempre que n > 10, las probabilidades binomiales con p = 1/2 se pueden aproxi- 
mar a partir de la curva normal, ya que np = nq > 5. Suponga, por ejemplo, que de- 
seamos probar la hipotesis 


Hq: p — po, 

Hp p < p 0 , 

en el nivel de significancia a = 0.05 para una muestra aleatoria de tamano n = 20 
que produce x = 6 signos mas. Utilizando la aproximacion de la curva normal con 

p = np = (20)(0.5) = 10 


y 


a = npq = \J (20)(0.5)(0.5) = 2.236, 


encontramos que 


6.5 - 10 
2.236 


-1.57. 


Por lo tanto, 


P = P(X <6 ) « P(Z < -1.57) = 0.0582, 
que conduce a no rechazar la hipotesis nula. 


Los siguientes datos representan el numero de horas que un compensador opera antes 
de que requiera una recarga: 

1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2, 1.7. 

Utilice la prueba de signo para probar la hipotesis en el nivel de significancia de 0.05 
de que este compensador especifico opera con una mediana de 1.8 horas antes de re- 
querir una recarga. 

1 . Hq'. p — 1 . 8 . 

2. Hp. p^ 1.8. 

3. a = 0.05. 

4. Estadistica de prueba: variable binomial X con p = 

5. Calculos: A1 reemplazar cada valor con el sfmbolo “+” si excede 1.8, con el si'm- 
bolo ” si es menor que 1.8 y descartar las mediciones que sean iguales a 1.8, 
obtenemos la siguiente secuencia 


para la que n = 10, x = 3 y n/2 = 5. Por lo tanto, de la tabla A.l el valor P 
que se calcula es 


P = 2P(X <3 cuando p 




1 

2 10, -) = 0.3438 > 0.05. 

x=0 2 
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Ejemplo 16.2: 


Solucion: 


6. Decision: no rechace la hipotesis nula y concluya que la mediana del tiempo de 
operation no es significativamente diferente de 1.8 horas. 

Tambien se puede utilizar la prueba de signo para probar la hipotesis nula pi — 
P 2 = do para observaciones pareadas. Aqui reemplazamos cada diferencia, di , con 
un signo mas o un signo menos, dependiendo si la diferencia ajustada, di — do, es 
positiva o negativa. A lo largo de esta section suponemos que las poblaciones son 
simetricas. No obstante, aun si las poblaciones fueran asimetricas podriamos llevar a 
cabo el mismo procedimiento de prueba, pero las hipotesis se refieren a las medianas 
poblacionales en vez de a las medias. 


Una compania de taxis intenta decidir si el uso de llantas radiales en vez de llantas 
regulares con cinturon mejora la economia del combustible. Se equipan 16 auto- 
moviles con llantas radiales y se manejan por un recorrido de prueba establecido. 
Sin cambiar de conductores, se equipan los mismos autos con las llantas regulares 
con cinturon y se manejan una vez mas por el recorrido de prueba. El consumo de 
gasolina, en kilometres por litre, se presenta en la tabla 16.1. 

^Con el nivel de significancia de 0.05 podemos concluir que los automoviles equi- 
pados con llantas radiales obtienen mejores economias de combustible, que los equipa- 
dos con llantas regulares con cinturon? 


Tabla 16.1: Datos para el ejemplo 16.2 


Automovil 

1 

2 

3 

4 

5 

6 

7 

8 

Llantas radiales 

4.2 

4.7 

6.6 

7.0 

6.7 

4.5 

5.7 

6.0 

Llantas con cinturon 

4.1 

4.9 

6.2 

6.9 

6.8 

4.4 

5.7 

5.8 

Automovil 

9 

10 

11 

12 

13 

14 

15 

16 

Llantas radiales 

7.4 

4.9 

6.1 

5.2 

5.7 

6.9 

6.8 

4.9 

Llantas con cinturon 

6.9 

4.9 

6.0 

4.9 

5.3 

6.5 

7.1 

4.8 


Sean pi y /12 los kilometres por litro promedio para los automoviles equipados con 
llantas radiales y con cinturon, respectivamente. 

1. Ho', pi — P 2 = 0. 

2 . //] : jli — P 2 > 0 . 

3. a = 0.05. 

4. Estadistico de prueba: variable binomial X con p = 1/2. 

5. Calculos: Despues de reemplazar cada diferencia positiva con un shnbolo “+” y 
cada diferencia negativa con un shnbolo y despues descartar las dos dife- 
rencias cero, obtenemos la secuencia 

+ - + + - + + + + + + + - + 

para la que n=14yx = ll. Con la aproximacion de la curva normal, encon- 
tramos que 


V (14)(0.5)(0.5) ■ ’ 

y entonces 

P = P(X > 11) « P(Z > 1.87) = 0.0307. 
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6. Decision: Rechace Hq y concluya que, en promedio, las llantas radiales mejoran 
la economfa de combustible. 

La prueba de signo no solo es uno de nuestros procedimientos no parametricos 
mas faciles de aplicar, pues tiene la ventaja adicional de ser aplicable a datos di- 
cotomicos que no se pueden registrar en una escala numerica, pero que se pueden 
representar mediante respuestas positivas y negativas. Por ejemplo, la prueba de 
signo se aplica en experimentos donde se registra una respuesta cualitativa como 
“exito” o “fracaso” ; y en experimentos de tipo sensorial donde se registra un signo 
mas o un signo menos, dependiendo de si el catador del sabor identifica de manera 
correcta o incorrecta el ingrediente que se desea. 

Intentaremos realizar comparaciones entre varios de los procedimientos no pa- 
rametricos y las pruebas parametricas correspondientes. En el caso de la prueba de 
signo la competencia es, desde luego, la prueba t. Si se muestrea de una distribution 
normal, el uso de la prueba t tendra como resultado la potencia mas grande de la prue- 
ba. Si la distribution solo es simetrica, aunque no sea normal, se prefiere la prueba t en 
terminos de potencia, a menos que la distribution tenga “colas muy pesadas” en com- 
paracion con la distribution normal. 


16.2 Prueba de rango con signo 

El lector debcria notar que la prueba de signo tan solo utiliza los signos mas y menos 
de las diferencias entre las observaciones y po en el caso de una muestra, o los sig- 
nos mas y menos de las diferencias entre los pares de observaciones en el caso de la 
muestra pareada; aunque no toma en consideration la magnitud de tales diferencias. 
Una prueba que utiliza direction y magnitud, propuesta en 1945 por Frank Wilcoxon, 
se llama ahora comunmente prueba de rango con signo de Wilcoxon. 

El analista podri'a extraer mas information de los datos en una forma no parame- 
trica, si resulta razonable aplicar una restriction adicional a la distribution de la que 
se toman los datos. La prueba de rango con signo de Wilcoxon se aplica en el caso de 
una distribution continua simetrica. Bajo esta condition se prueba la hipotesis 
nula p = po. Primero restamos po de cada valor muestral y descartamos todas las 
diferencias iguales a cero. Se clasifican entonces las diferencias restantes sin importar 
el signo. Se asigna un rango de 1 a la menor diferencia absoluta (es decir, sin signo), 
un rango de 2 a la siguiente mas pequena, y asi sucesivamente. Cuando el valor 
absolute de dos o mas diferencias es el mismo, se asigna a cada uno el promedio de 
los rangos que se asignarian si las diferencias fueran distinguibles. Por ejemplo, si las 
diferencias quinta y sexta mas pequeiias son iguales en valor absoluto, a cada una 
se le asignaria un rango de 5.5. Si la hipotesis p = po es verdadera, el total de los 
rangos que corresponden a las diferencias positivas deberfa ser casi igual al total de 
los rangos que corresponden a las diferencias negativas. Representemos estos totales 
con w+ y W-, respectivamente. Designamos el menor de w + y W- con w. 

Al seleccionar muestras repetidas esperariamos que variaran w+ y w- y, por lo 
tanto, w. De esta manera consideramos w + , W- y w como valores de las correspon- 
dientes variables aleatorias W+, W- y W. La hipotesis nula p = po se puede rechazar 
a favor de la alternativa p < po solo si w+ es pequena y w _ es grande. Asimismo, 
la alternativa p > Po se puede aceptar solo si w + es grande y w- es pequena. Para 
una alternativa bilateral podemos rechazar Hq a favor de H\ si w + o W- y, por lo 
tanto, w son suficientemente pequehas. De esta manera, no importa cual hipotesis 
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alternativa sea, rechazamos la hipotesis nula cuando el valor del estadi'stico adecua- 
do W+, W~ olfes suficientemente pequeno. 

Dos muestras con observaciones pareadas 

Para probar la hipotesis nula de que se muestrean dos poblaciones simetricas conti- 
nuas con A i = £12 para el caso de una muestra pareada, clasificamos las diferencias 
de las observaciones pareadas sin importar el signo y procedemos como en el caso de 
una sola muestra. Los diversos procedimientos de prueba para los casos de una sola 
muestra y de una muestra pareada, se resumen en la tabla 16.2. 


Tabla 16.2: Prueba de rango con signo 


Ho 

Hr 

Calcule 


[A < Ao 

w + 

A = A 0 s 

, A > Ao 

W- 


1 A 7 ^ Ao 

w 


[ Ai < A 2 

W+ 

Ai = A 2 s 

Ai > A 2 

W- 


1 Ai + A 2 

w 


No es diffcil mostrar que siempre que n < 5 y el nivel de significancia no exceda 
0.05 para una prueba de una cola, o 0.10 para una prueba de dos colas, todos los 
valores posibles de w+, w _ o w conduciran a la aceptacion de la hipotesis nula. Sin 
embargo, cuando 5 <n< 30, la tabla A. 17 muestra valores crfticos aproximados de 
W+ y W- para niveles de significancia iguales a 0.01, 0.025 y 0.05 para una prueba 
de una cola, y valores crfticos de W para niveles de significancia iguales a 0.02, 0.05 
y 0.10 para una prueba de dos colas. Se rechaza la hipotesis nula si el valor calcu- 
lado w+, W- o w es menor o igual que el valor tabulado apropiado. Por ejemplo, 
cuando n = 12, la tabla A. 17 muestra que se requiere un valor de w + < 17 para que 
la alternativa unilateral A < Ao sea significativa en el nivel 0.05. 


Ejemplo 16.3:1 Repita el ejemplo 16.1 usando la prueba de rango con signo. 

Solucion: 1. Hq: A = 1.8. 

2. Hr. A ^1.8. 

3. a = 0.05. 

4. Region crftica: Como n = 10, despues de descartar la medicion que es igual a 
1.8, la tabla A. 17 muestra que la region crftica es w < 8. 

5. Calculos: A1 restar 1.8 de cada medicion y despues clasificar las diferencias sin hacer 
caso del signo, tenemos 


di 

-0.3 

0.4 

-0.9 

-0.5 

0.2 

-0.2 

-0.3 

0.2 

-0.6 -0.1 

Rangos 

5.5 

7 

10 

8 

3 

3 

5.5 

3 

9 1 


Ahora bien, w + = 13 y W- = 42, de manera que w = 13, el menor de w + y ul. 
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6. Decision: Como antes, no rechace Hq y concluya que el tiempo promedio de 
operacion no es significativamente diferente de 1.8 horas. 

La prueba de rango con signo tambien se puede utilizar para probar la hipotesis 
nula de que pi — P 2 = do- En este caso las poblaciones no necesitan ser simetricas. 
Como con la prueba de signo, restamos do de cada diferencia, clasificamos las diferen- 
cias ajustadas sin importar el signo y aplicamos el mismo procedimiento anterior. 


Ejemplo 16.4:1 Se afirma que un estudiante universitario de ultimo ano puede aumentar su califica- 
cion en el area del campo de especialidad del examen de registro de graduados en al 
menos 50 puntos, si de antemano se le ofrecen problemas de muestra. Para probar 
esta afirmacion, se dividen 20 estudiantes del ultimo ano en 10 pares, de manera que 
cada par tenga casi el mismo promedio de puntos de calidad general en sus 3 prime- 
ros anos en la universidad. Los problemas y respuestas de muestra se proporcionan 
al azar a un miembro de cada par 1 semana antes del examen. Las calificaciones del 
examen se presentan en la tabla 16.3: 


Tabla 16.3: Datos para el ejemplo 16.4 







Par 






1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

Con problemas de muestra 

531 

621 

663 

579 

451 

660 

591 

719 

543 

575 

Sin problemas de muestra 

509 

540 

688 

502 

424 

683 

568 

748 

530 

524 


Pruebe la hipotesis nula en el nivel de significancia de 0.05 de que los problemas 
de muestra aumentan las calificaciones en 50 puntos, contra la hipotesis alternativa de 
que el aumento es menor a 50 puntos. 

Solucion: Representemos con p\ y P2 la calificacion media de todos los estudiantes que resuel- 
ven el examen en cuestion con y sin problemas de muestra, respectivamente. 

1. Ho: pi — P 2 = 50. 

2. Hp pi - p 2 < 50. 

3. a = 0.05. 

4. Region crftica: Como n = 10, la tabla A. 17 muestra que la region critica es uq. 

< 11 . 

5. Calculos: 







Par 





1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

di 

22 

81 

-25 

77 

27 

-23 

23 

-29 

13 

51 

di do 

-28 

31 

-75 

27 

-23 

-73 

-27 

-79 

-37 

1 

Rangos 

5 

6 

9 

3.5 

2 

8 

3.5 

10 

7 

1 


Encontramos ahora que w + = 6 + 3.5 + 1 = 10.5. 

6 . Decision: Rechace Hq y concluya que los problemas de muestra, “en promedio”, 
no aumentan las calificaciones de registro de graduados en 50 puntos. 


Ejercicios 
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Aproximacion normal para muestras grandes 

Cuando n > 15, la distribution muestral de W+ (o WE) se aproxima a la distribution 
normal con media 

n(n + 1) . 2 n(n + l)(2n + 1) 

Hw+ = y varianza a w+ = 

Por lo tanto, cuando n excede el valor mas grande en la 
estadistico 


24 

tabla A. 17, se utiliza el 


z _ w + - Vw+ 

aw + 

para determinar la region crftica para nuestra prueba. 


Ej ercicios 

16.1 Los siguientes datos representan el tiempo, en 
minutos, que un paciente tiene que esperar durante 12 
visitas al consultorio de una doctora antes de ser aten- 
dido por esta: 

17 15 20 20 32 28 

12 26 25 25 35 24 

Utilice la prueba de signo al nivel de significancia de 0.05 
para probar la afirmacion de la doctora, de que la media 
del tiempo de espera para sus pacientes no es mayor 
que 20 minutos antes de entrar al consultorio. 

16.2 Los siguientes datos representan el numero de 
horas de vuelo de entrenamiento que reciben 18 estu- 
diantes para piloto, de cierto instructor, antes de su 
primer vuelo solos: 

9 12 18 14 12 14 12 10 16 

11 9 11 13 11 13 15 13 14 

Con las probabilidades binomiales de la tabla A.l, realice 
una prueba de signo al nivel de significancia de 0.02 para 
probar la afirmacion del instructor, de que la mediana 
del tiempo que se requiere antes de que sus estudiantes 
vuelen solos es 12 horas de vuelo de entrenamiento. 

16.3 Un inspector de alimentos examina 16 latas de 
cierta marca de jamon para determinar el porcentaje 
de impurezas externas. Se registraron los siguientes 
datos: 

2.4 2.3 3.1 2.2 2.3 1.2 1.0 2.4 

1.7 1.1 4.2 1.9 1.7 3.6 1.6 2.3 

Con la aproximacion normal a la distribucion binomial, 
realice una prueba de signo al nivel de significancia de 
0.05, para probar la hipotesis nula de que la mediana 
del porcentaje de impurezas en esta marca de jamon 
es 2.5%, contra la alternativa de que la mediana del 
porcentaje de impurezas no es 2.5%. 

16.4 Un proveedor de pintura afirma que un nuevo 
aditivo reducira el tiempo de secado de su pintura acri- 


lica. Para probar esta afirmacion, se pintaron 12 paneles 
de madera: una mitad de cada panel con pintura que 
contiene el aditivo regular, y la otra con pintura que con- 
tiene el nuevo aditivo. Los tiempos de secado, en horas, 
se registran a continuation: 


Tiempo de secado (horas) 

Panel 

Nuevo aditivo 

Aditivo regular 

1 

6.4 

6.6 

2 

5.8 

5.8 

3 

7.4 

7.8 

4 

5.5 

5.7 

5 

6.3 

6.0 

6 

7.8 

8.4 

7 

8.6 

8.8 

8 

8.2 

8.4 

9 

7.0 

7.3 

10 

4.9 

5.8 

11 

5.9 

5.8 

12 

6.5 

6.5 

Utilice la prueba de signo en el nivel 0.05 para probar 
la hipotesis nula de que el nuevo aditivo no es mejor 
que el aditivo regular para reducir el tiempo de secado 

de este tipo de pintura. 


16.5 Se afirma que una nueva 

dieta reducira 4.5 kilo- 

gramos el peso de una persona, 

en promedio, en un pe- 

riodo de 2 semanas. Se registran los pesos de 10 muje- 
res que siguen esta dieta, antes y despues de un periodo 

de 2 semanas. 

, y se obtienen los siguientes datos: 

Mujer 

Peso antes 

Peso despues 

1 

58.5 

60.0 

2 

60.3 

54.9 

3 

61.7 

58.1 

4 

69.0 

62.1 

5 

64.0 

58.5 

6 

62.6 

59.9 

7 

56.7 

54.4 

8 

63.6 

60.2 

9 

68.2 

62.3 

10 

59.4 

58.7 
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Utilice la prueba de signo al nivel de significancia de 
0.05 para probar la hipotesis de que la dieta reduce la 
mediana del peso en 4.5 kilogramos, contra la hipotesis 
alternativa de que la mediana de la diferencia en pesos 
es menor que 4.5 kilogramos. 

16.6 Se comparan dos tipos de instrumentos para me- 
dir la cantidad de monoxido de azufre en la atmosfera 
en un experimento de contamination atmosferica. Se 


registraron las siguientes lecturas diarias en un periodo 
de 2 semanas: 

Monoxido de azufre 

Dfa 

Instrumento A 

Instrumento B 

1 

0.96 

0.87 

2 

0.82 

0.74 

3 

0.75 

0.63 

4 

0.61 

0.55 

5 

0.89 

0.76 

6 

0.64 

0.70 

7 

0.81 

0.69 

8 

0.68 

0.57 

9 

0.65 

0.53 

10 

0.84 

0.88 

11 

0.59 

0.51 

12 

0.94 

0.79 

13 

0.91 

0.84 

14 

0.77 

0.63 


Usando la aproximacion normal a la distribution bino- 
mial, realice una prueba de signo para determinar si los 
diferentes instrumentos conducen a diferentes resulta- 
dos. Utilice un nivel de significancia de 0.05. 

16.7 Las siguientes cifras indican la presion sanguf- 
nea sistolica de 16 corredores antes y despues de una 
carrera de 8 kilometros: 

Corredor Antes Despues 
T 158 164 

2 149 158 

3 160 163 

4 155 160 

5 164 172 

6 138 147 

7 163 167 

8 159 169 

9 165 173 

10 145 147 

11 150 156 

12 161 164 

13 132 133 

14 155 161 

15 146 154 

16 159 170 

Utilice una prueba de signo al nivel de significancia de 
0.05 para probar la hipotesis nula de que correr 8 kilo- 
metros aumenta la mediana de la presion sangui'nea 
sistolica en 8 puntos contra la alternativa de que el au- 
mento en la mediana es menor que 8 puntos. 


16.8 Analice los datos del ejercicio 16.1 usando la prue- 
ba de rango con signo. 

16.9 Analice los datos del ejercicio 16.2 usando la prue- 
ba de rango con signo. 

16.10 Los pesos de 5 personas antes de que dejen de fu- 
mar y cinco semanas despues de dejar de fumar, en kilo- 
gramos, son los siguientes: 

Individual 

1 2 3 4 5 ~ 

Antes 66 80 69 52 75 

Despues 71 82 68 56 73 

Utilice la prueba de rango con signo para observaciones 
pareadas para probar la hipotesis, en el nivel de signi- 
ficancia de 0.05, de que dejar de fumar no tiene efecto 
en el peso de una persona, contra la alternativa de que el 
peso aumenta si se deja de fumar. 

16.11 Repita el ejercicio 16.5 usando la prueba de ran- 
go con signo. 

16.12 Los siguientes son los numeros de recetas surti- 
das por dos farmacias en un periodo de 20 dfas: 

Dfa Farmacia A Farmacia B 


1 

19 

17 

2 

21 

15 

3 

15 

12 

4 

17 

12 

5 

24 

16 

6 

12 

15 

7 

19 

11 

8 

14 

13 

9 

20 

14 

10 

18 

21 

11 

23 

19 

12 

21 

15 

13 

17 

11 

14 

12 

10 

15 

16 

20 

16 

15 

12 

17 

20 

13 

18 

18 

17 

19 

14 

16 

20 

22 

18 


Utilice la prueba de rango con signo al nivel de signifi- 
cancia de 0.01 para determinar si las dos farmacias, “en 
promedio”, surten el mismo numero de recetas, contra 
la alternativa de que la farmacia A surte mas recetas 
que la farmacia B. 

16.13 Repita el ejercicio 16.7 con la prueba de rango 
con signo. 

16.14 Repita el ejercicio 16.6 con la prueba de rango 
con signo. 


16.3 Prueba de la suma de rangos de Wilcoxon 
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16.3 Prueba de la suma de rangos de Wilcoxon 

Como indicamos antes, el procedimiento no parametrico, por lo general, es una alter- 
nativa adecuada para la prueba de la teoria normal cuando no es valida la suposicion 
de normalidad. Cuando interesa probar la igualdad de las medias de dos distribucio- 
nes continuas que evidentemente no son normales, y las muestras son independientes 
(es decir, no hay pareamiento de observaciones) , la prueba de la suma de rangos 
de Wilcoxon o prueba de dos muestras de Wilcoxon es una alternativa apro- 
piada a la prueba t, de dos muestras que se describe en el capftulo 10. 

Probaremos la hipotesis nula H$ de que m i = M 2 contra alguna alternativa ade- 
cuada. Primero seleccionamos una muestra aleatoria de cada una de las poblaciones. 
Sea n\ el numero de observaciones en la muestra mas pequena y ri 2 el numero de 
observaciones en la muestra mas grande. Cuando las muestras son de igual tamano, 
rii y Ti 2 se pueden asignar de manera aleatoria. Hay que ordenar las ni + ri 2 obser- 
vaciones de las muestras combinadas en orden ascendente y sustituir un rango de 
1,2,..., rii + 7i2 para cada observation. En el caso de empates (observaciones 
identicas), reemplazamos las observaciones por la media de los rangos que tendrfan 
las observaciones si fueran distinguibles. Por ejemplo, si la septima y octava obser- 
vaciones son identicas, asignariamos un rango de 7.5 a cada una de las dos ob- 
servaciones. 

La suma de los rangos que corresponden a las ig observaciones en la muestra mas 
pequena se clenota con wi. De manera similar, el valor W 2 representa la suma de los 
n 2 rangos que corresponden a la muestra mas grande. El total w± + W 2 depende solo 
del numero de observaciones en las dos muestras y de ninguna manera resulta afec- 
tado por los resultados del experimento. De aquf, si ni = 3 y ri 2 = 4, entonces w\ + 
u >2 = 1 + 2 + • • • + 7 = 28, sin importar los valores numericos de las observaciones. 
En general, 

(ni + n 2 )(ni + n 2 + 1) 
wi+w 2 = , 

la suma aritmetica de los enteros 1,2,..., m + n 2 - Una vez que se determina w i, 
puede ser mas facil encontrar w 2 mediante la formula 

(n\ + n 2 )(ni + n 2 + 1) 
w 2 = w i. 

A1 elegir muestras repetidas de tamanos n i y n 2 , esperariamos que variaran w± y, 
por lo tanto, W 2 - Consideramos entonces wi y w 2 como valores de las variables alea- 
torias W\ y W 2 , respectivamente. La hipotesis nula fit = jl 2 se rechazara a favor de 
la alternativa Mi < fi 2 solo si w i es pequena y w 2 es grande. Asimimo, la alternativa 
Ai > M 2 se puede aceptar solo si W\ es grande y w 2 es pequena. Para una prueba de 
dos colas, podemos rechazar Hq a favor de Hi si w\ es pequena y W 2 es grande, o si 
W\ es grande y w 2 es pequena. En otras palabras, se acepta la alternativa /t i < jl 2 
si w\ es suficientemente pequena; la alternativa /i i > fi 2 se acepta si w 2 es suficien- 
temente pequena; y la alternativa Mi ^ jd 2 se acepta si el mrnimo de u'i y w 2 es 
suficientemente pequeho. En la practica real, por lo general, basamos nuestra deci- 
sion en el valor 

ni(n\ + 1) n 2 (n 2 + 1) 

Ui=Wi o u 2 =w 2 

del estadfstico relacionado U\ o U 2 , o en el valor u del estadfstico U, el mrnimo de 
U\ y U 2 - Dichos estadfsticos simplifican la construccion de tablas de valores crfticos, 
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Ejemplo 16.5: 


Solucion: 


pues U\ y U 2 tienen distribuciones muestrales simetricas y toman valores en el inter- 
valo de 0 a n\n 2 tales que u\ + U 2 = n\ri 2 - 

De las formulas para u\ y U 2 vemos que u\ sera pequena cuando w\ es pequena, 
y U 2 sera pequena cuando 11 J 2 sea pequena. En consecuencia, la hipotesis nula se re- 
chazara siempre que los estadi'sticos apropiados Ui, U 2 o U tomen un valor menor o 
igual que el valor cri'tico deseado dado en la tabla A. 18. Los diversos procedimientos 
de prueba se resumen en la tabla 16.4. 


Tabla 16.4: Prueba de la suma de rangos 


Ho 

Hi 

Calcule 


f fil < fi-2 

Ui 

fil = fi-2 S 

| Ml > M2 

U 2 


[mi ¥= M2 

U 


La tabla A. 18 da valores cri'ticos de Ui y U 2 para niveles de significancia iguales 
a 0.001, 0.002, 0.01, 0.02, 0.025 y 0.05 para una prueba de una sola cola, y valores 
crfticos de U para niveles de significancia iguales a 0.002, 0.02, 0.05 y 0.10 para una 
prueba de dos colas. Si el valor observado de ui, 112 o u es menor o igual que el va- 
lor cri'tico tabulado, se rechaza la hipotesis nula en el nivel de significancia que se in- 
dica en la tabla. Suponga, por ejemplo, que deseamos probar la hipotesis nula de que 
fit] = fi 2 contra la alternativa unilateral de que fill < fii 2 en el nivel de significancia 
0.05 para muestras aleatorias de tamano rq = 3 y ri 2 = 5, que dan el valor w\ = 8. 
Se sigue que 


u x 


(3) (4) 
2 


Nuestra prueba de una sola cola se basa en el estadistico U\. Con la tabla A. 18, 
rechazamos la hipotesis nula de medias iguales cuando u\ < 1. Como U\ = 2 no cae 
en la region de aceptacion, no se puede rechazar la hipotesis nula. 


Se encuentra que el contenido de nicotina de dos marcas de cigarrillos, medido en 
miligramos, es el siguiente: 


Marca A 

2.1 

4.0 

6.3 

5.4 

4.8 

3.7 

6.1 

3.3 

Marca B 

4.1 

0.6 

3.1 

2.5 

4.0 

6.2 

1.6 

2.2 1.9 5.4 


Pruebe la hipotesis, en el nivel de significancia de 0.05, de que el contenido promedio 
de nicotina de las dos marcas es igual, contra la alternativa de que son diferentes. 

1. Hq\ fill = fil2- 

2. Hp. fill fii 2 . 

3. a = 0.05. 

4. Region crftica: u < 17 (de la tabla A. 18). 

5. Calculos: Las observaciones se acomodan en orden ascendente y se les asignan 
rangos del 1 al 18. 
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Datos originales 

Rangos 

Datos originales 

Rangos 

0.6 

1 

4.0 

10.5* 

1.6 

2 

4.0 

10.5 

1.9 

3 

4.1 

12 

2.1 

4* 

4.8 

13* 

2.2 

5 

5.4 

14.5* 

2.5 

6 

5.4 

14.5 

3.1 

7 

6.1 

16* 

3.3 

8* 

6.2 

17 

3.7 

9* 

6.3 

18* 


*Los rangos con asterisco pertenecen a la muestra A. 


Ahora 


wi = 4 + 8 + 9+ 10.5 + 13 + 14.5 + 16 + 18 = 93, 


y 


w 2 


(18) (4 9) 
2 


93 = 78. 


Por lo tanto, 


mi = 93 - = 57, u 2 = 78 - = 23. 

2 2 

6. Decision: No rechace la hipotesis nula H o y concluya que no hay diferencia signi- 
ficativa en el contenido promedio de nicotina en las dos marcas de cigarrillos. 

Teorfa normal de aproximacion para dos muestras 

Cuando m y n 2 exceden 8, la distribucion muestral de U\ (o U 2 ) se aproxima a la 
distribucion normal con media 


nin 2 . 2 n 1 n 2 (n 1 + n 2 + 1) 

= ~y~ y varianza a Vi = — . 

En consecuencia, cuando n 2 es mayor que 20, el valor maximo en la tabla A. 18, y ni 
es al menos 9, se puede utilizar el estadistico 

z _ Ui ~ Hui 

para nuestra prueba, con la region critica que cae ya sea en alguna o en ambas colas 
de la distribucion normal estandar, dependiendo de la forma de Hi. 

El uso de la prueba de suma de rangos de Wilcoxon no se restringe a poblaciones 
no normales. Se puede utilizar en vez de la prueba t de dos muestras cuando las 
poblaciones son normales, aunque la potencia sera menor. La prueba de suma de 
rangos de Wilcoxon siempre es superior a la prueba t para poblaciones decididamen- 
te no normales. 
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16.4 Prueba de Kruskal-Wallis 

En los capitulos 13, 14 y 15, la tecnica de analisis de varianza resalta como tecnica 
analftica para probar la igualdad de k > 2 medias poblacionales. De nuevo, sin em- 
bargo, el lector deberia recordar que se debe suponer la normalidad, con la finalidad 
de que la prueba F sea teoricamente correcta. En esta section investigamos una 
alternativa no parametrica al analisis de varianza. 

La prueba de Kruskal-Wallis, tambien llamada prueba H de Kruskal- 
Wallis, es una generalization de la prueba de la suma de rangos para el caso de k > 
2 muestras. Se utiliza para probar la hipotesis nula Hq de que k muestras indepen- 
dientes provienen de poblaciones identicas. Presentada en 1952 por W. H. Kruskal y 
W. A. Wallis, la prueba constituye un procedimiento no parametrico para probar la 
igualdad de las medias, en el analisis de varianza de un factor, cuando el experimen- 
tador desea evitar la suposicion de que las muestras se seleccionaron de poblaciones 
normales. 

Sea rii (i = 1, 2, . . . , k ) el numero de observaciones en la ?’-esima muestra. Pri- 
mero, combinamos todas las k muestras y acomodamos las n = ni + ri 2 + • • • + nk 
observaciones en orden ascendente, y sustituimos el rango apropiado de 1, 2, . . . , n 
para cada observation. En el caso de empates (observaciones identicas), seguimos el 
procedimiento acostumbrado de reemplazar las observaciones por las medias de los 
rangos que tendrfan las observaciones si fueran distinguibles. La suma de los rangos 
que corresponde a las n, observaciones en la i-esima muestra se denota mediante la 
variable aleatoria Ri. Consideremos ahora el estadistico 


H 


12 

n(n + 1) 


E 



n. 


3(n + 1), 


que se aproxima muy bien mediante una distribution chi cuadrada con k—1 grados 
de libertad, cuando H$ es verdadera y si cada muestra consiste en al menos 5 obser- 
vaciones. El hecho de que h, el supuesto valor de H , sea grande cuando las muestras 
independientes provienen de poblaciones que no son identicas nos permite establecer 
el siguiente criterio de decision para probar Hq\ 


Prueba de 
Kruskal-Wallis 


Para probar la hipotesis nula H$ de que k muestras independientes provienen de 
poblaciones identicas, calcule 


h = 


12 

n(n + 1) 



3(n + 1), 


donde r, es el valor supuesto de Ri, para i = 1,2,..., k. Si h cae en la region 
critica H > \a con v = k — 1 grados de libertad, rechace H 0 con el nivel de sig- 
nificancia a; de otra manera, no rechace H$. 


Ejemplo 16.6:1 En un experimento para determinar cual de tres diferentes sistemas de misiles es 
preferible, se mide la tasa de utilization del propulsor. Los datos, despues de codifi- 
carlos, se presentan en la tabla 16.5. Utilice la prueba de Kruskal-Wallis y un nivel 
de significancia a = 0.05, para probar la hipotesis de que las tasas de utilization del 
propulsor son las mismas para los tres sistemas de misiles. 
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Solucion: 


Tabla 16.5: Tasas de utilization del propulsor 


Sistema de misiles 



1 


2 



3 


24.0 

16.7 22.8 

23.2 

19.8 

18.1 

18.4 

19.1 

17.3 

19.8 

18.9 

17.6 

20.2 

17.8 

17.3 

18.8 

19.7 

19.3 

18.9 


1. Hq\ /Zi — f-l 2 — /i3- 

2. Hi : las tres medias son diferentes. 

3. a = 0.05. 

4. Region critica: h > Xom = 5.991, para v = 2 grados de libertad. 

5. Calculos: En la tabla 16.6 convertimos las 19 observaciones a rangos y sumamos 
los rangos para cada sistema de misiles. 


Tabla 16.6: Rangos para las tasas de utilization del propulsor 


Sistema de misiles 

1 2 

3 

19 

18 

7 

1 

14.5 

11 

17 

6 

2.5 

14.5 

4 

2.5 

9.5 

16 

13 

n = 61.0 

5 

9.5 


r 2 = 63.5 

8 



12 


r3 = 

= 65.5 


Ahora, al sustituir ni = 5, n 2 = 6, ri 3 = 8 y ri = 61.0, r 2 = 63.5, r 3 = 65.5, 
nuestro estadistico de prueba H toma el valor 


(19)(20) 



1 . 66 . 


6. Decision: Como h = 1.66 no cae en la region critica h > 5.991, tenemos insu- 
ficiente evidencia para rechazar la hipotesis de que las tasas de utilization del 
propulsor son las mismas para los tres sistemas de misiles. 



686 


Capitulo 16 Estadistica no parametrica 


Ej ercicios 


16.15 Un fabricante de cigarrillos afirma que el conte- 
nido de alquitran de la marca de cigarrillos B es menor 
que la de la marca A. Para probar esta afirmacion, se 
registran las siguientes determinaciones de contenido de 
alquitran, en miligramos: 


Marca A 

1 12 

9 13 11 14 

Marca B 

00 

I— 1 

o 

7 


Utilice la prueba de suma de rangos con a = 0.05 para 
probar si tal afirmacion es valida. 

16.16 Para averiguar si un nuevo suero detendra la 
leucemia, se seleccionan 9 pacientes, ciuienes ya alcan- 
zaron una etapa avanzada de la enfermedad. Cinco pa- 
cientes reciben el tratamiento y cuatro no. Los tiempos 
de supervivencia, en anos, a partir del momento en que 
comienza el experimento son 


Con tratamiento 

2.1 

5.3 

1.4 

4.6 0.9 

Sin tratamiento 

1.9 

0.5 

2.8 

3.1 


Utilice la prueba de suma de rangos, en el nivel de 
significancia de 0.05, para determinar si el suero es 
eficaz. 

16.17 Los siguientes datos representan el niimero de 
horas que operan dos diferentes tipos de calculadoras 
cientfficas de bolsillo, antes de que necesiten recargarse. 


Calculadora A 

5.5 5.6 6.3 4.6 5.3 5.0 6.2 5.8 5.1 

Calculadora B 

3.8 4.8 4.3 4.2 4.0 4.9 4.5 5.2 4.5 


Utilice la prueba de la suma de rangos con a = 0.01 
para determinar si la calculadora A opera mas tiempo 
que la calculadora B con una carga completa de la 
bateria. 

16.18 Se fabrica un hilo para pesca usando dos pro- 
cesos. Para determinar si hay una diferencia en la re- 
sistencia media a la rotura de los hilos, se seleccionan 
10 piezas de cada proceso y despues se prueba dicha 
resistencia. Los resultados son los siguientes: 


Proceso 1 

10.4 

9.8 

11.5 

10.0 

9.9 


9.6 

10.9 

11.8 

9.3 

10.7 

Proceso 2 

8.7 

11.2 

9.8 

10.1 

10.8 


9.5 

11.0 

9.8 

10.5 

9.9 


Utilice la prueba de suma de rangos con a = 0.1 para 
determinar si hay una diferencia entre las resistencias 
medias a la rotura de los hilos fabricados por los dos 
procesos. 

16.19 De una clase de matematicas de 12 estudian- 
tes con capacidades iguales, quienes utilizan material 


programado, se seleccionan 5 al azar y el profesor les 
da instruction adicional. Los resultados del examen fi- 
nal son los siguientes: 



Calificacion 

Con instruction 
adicional 

87 

69 

78 

91 

80 

Sin instruction 
adicional 

75 

88 

64 

82 

93 79 67 


Utilice la prueba de la suma de rangos con a = 0.05 
para determinar si la instruction adicional afecta la 
calificacion promedio. 


16.20 Los siguientes datos representan los pesos, en 
kilogramos, del equipaje personal que llevan, en dife- 
rentes vuelos, un miembro de un equipo de beisbol y un 
jugador de un equipo de baloncesto. 


Peso del equipaje (kilogramos) 


Jugador de beisbol 

Jugador de baloncesto 

16.3 

20.0 

18.6 

15.4 

16.3 

18.1 

15.0 

15.4 

17.7 

18.1 

15.9 

18.6 

15.6 

18.6 

16.8 

14.1 

14.5 

18.3 

12.7 

14.1 

17.7 

19.1 

17.4 

15.0 

13.6 

16.3 

13.6 

14.8 

15.9 

16.3 

13.2 

17.2 

16.5 




Utilice la prueba de la suma de rangos con a = 0.05, 
para probar la hipotesis nula de que los dos atletas lie- 
van la misma cantidad de equipaje en promedio, contra 
la hipotesis alternativa de que los pesos promedio del 
equipaje para los dos atletas son diferentes. 

16.21 Los siguientes datos representan los tiempos 
de operation, en horas, para tres tipos de calculadoras 
cientfficas de bolsillo, antes de que requieran recarga: 

Calculadora 

A B C 

4.9 6.1 4.3 5.5 5.4 6.2 6.4 6.8 5.6 

4.6 5.2 5.8 5.5 5.2 6.5 6.3 6.6 

4.8 

Utilice la prueba de Kruskal- Wallis, en el nivel de 
significancia 0.01, para probar la hipotesis de que los 
tiempos de operation para las tres calculadoras son 
iguales. 

16.22 En el ejercicio 13.8 de la pagina 523 utilice la 
prueba de Kruskal- Wallis en el nivel de significancia 
de 0.05, para determinar si los solventes qufmicos or- 
ganicos difieren de manera significativa en la tasa de 
absorcion. 
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16.5 Pruebas de corridas 

A1 aplicar los diversos conceptos estadisticos que se presentan a lo largo de este 
libro, siempre se supone que nuestros datos muestrales se reunen mediante algun 
procedimiento aleatorio. Las pruebas de corridas, que se basan en el orden en 
el que se obtienen las observaciones muestrales, es una tecnica util para probar la 
hipotesis nula Hq de que las observaciones en realidad se extraen al azar. 

Para ilustrar las pruebas de corridas, supongamos que se encuesta a 12 personas 
para saber si utilizan cierto producto. Se cuestionaria seriamente la supuesta alea- 
toriedad de la muestra si las 12 personas fueran del mismo sexo. Designaremos un 
hombre y una mujer con los simbolos M y F, respectivamente, y registraremos los 
resultados de acuerdo con su sexo en el orden en que suceden. Una secuencia comun 
para el experimento seria 



donde agrupamos las subsecuencias de simbolos similares. Tales agrupamientos se 
llaman corridas. 


Definition 16.1: 


Una corrida es una subsecuencia de uno o mas simbolos identicos que representan 
una propiedad comun de los datos. 


Sin importar si las mediciones de nuestra muestra representan datos cualitativos 
o cuantitativos, la prueba de corridas divide los datos en dos categorias mutuamente 
excluyentes: masculino o femenino; clefectuoso o no defectuoso; caras o cruces; arri- 
ba o abajo de la mediana; etcetera. En consecuencia, una secuencia siempre estara 
limitada a dos snnbolos distintos. Sea m el numero de simbolos asociado con la cate- 
goria que ocurre menos, y ri 2 el numero de simbolos que pertenecen a la otra catego- 
ria. Entonces, el tamano de la muestra n = n i + ri 2 - 

Para los n = 12 simbolos en nuestra encuesta tenemos cinco corridas, con la 
primera que contiene dos M, la segunda tres F, etcetera. Si el numero de corridas es 
mayor o menor que el que esperariamos al azar, se deberia rechazar la hipotesis de 
que la muestra se extrajo al azar. Ciertamente, una muestra que tiene como resulta- 
do solo dos corridas, 


M M M M M M M F F F F F, 

o la inversa, es mas improbable que ocurra a partir de un proceso de selection alea- 
toria. Tal resultado indica que las primeras 7 personas entrevistadas fueron todas 
hombres, seguidas de cinco mujeres. Asimismo, si la muestra tiene como resultado 
el numero maximo de 12 corridas, como en la secuencia alternada 

MFMFMFMFMFMF, 

de nuevo sospechariamos del orden en que se seleccionaron los individuos para la 
encuesta. 

La prueba de corridas para la aleatoriedad se basa en la variable aleatoria V, el 
numero total de corridas que suceden en la secuencia completa de nuestro experi- 
mento. En la tabla A. 19, se dan valores de P(V < v * cuando Hq es verdadera) para 
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Ejemplo 16.7: 


Solucion: 


v* = 2, 3, . . . , 20 corridas, y valores de m y n 2 menores o iguales que 10. Los valores 
P tanto para pruebas de una cola como de clos colas se pueden obtener usando estos 
valores tabulados. 

En la encuesta anterior presentamos un total de 5 F y 7 M. De aquf, con n\ = 5, 
ri 2 = 7, y v = 5, de la tabla A. 19 notamos para una prueba de dos colas que el valor 
P es 


P = 2 P(V < 5 cuando Hq es real) = 0.394 > 0.05. 

Es decir, el valor v = 5 es razonable en el nivel de significancia de 0.05 cuando Hq es 
verdadera y, por lo tanto, no tenemos suficiente evidencia para rechazar la hipotesis 
de aleatoriedad en nuestra muestra. 

Cuando el numero de corridas es grande, por ejemplo, si v = 11 y rq = 5 y 112 = 7, 
entonces el valor P en una prueba de dos colas es 

P = 2 P(V > 11 cuando Hq es real) = 2[1 — P(V < 10 cuando Ho es real)] 

2(1 - 0.992) = 0.016 < 0.05, 

que nos lleva a rechazar la hipotesis de que los valores de la muestra ocurren al 
azar. 

La prueba de corridas tambien sirve para detectar desviaciones en la aleatorie- 
dad de una secuencia de mediciones cuantitativas en el tiempo, ocasionadas por 
tendencias o periodicidades. Al reemplazar cada medicion en el orden en que se ob- 
tienen por un sfmbolo mas si caen por arriba de la mediana, por un sfmbolo menos 
si caen por debajo de la mediana, y al omitir todas las mediciones que son exacta- 
mente iguales a la mediana, generamos una secuencia de sfmbolos mas y menos que 
se prueban por su aleatoriedad como se ilustra en el siguiente ejemplo. 


Se ajusta una maquina para servir de adelgazador de pintura acrflica en un contenedor. 
^Dirfa que la cantidad de adelgazador de pintura que despacha la maquina varia de 
forma aleatoria, si se mide el contenido de los siguientes 15 contenedores y se encuen- 
tra que es 3.6, 3.9, 4.1, 3.6, 3.8, 3.7, 3.4, 4.0, 3.8, 4.1, 3.9, 4.0, 3.8, 4.2 y 4.1 litros? 
Utilice un nivel de significancia de 0.1. 

1 . Hq: La secuencia es aleatoria. 

2. Hp La secuencia no es aleatoria. 

3. a = 0.1. 

4. Estadfstico de prueba: V, numero total de corridas. 

5. Calculos: Para la muestra dada encontramos x = 3.9. Al reemplazar cada medi- 
cion por el sfmbolo “+”, si cae por arriba de 3.9, por el sfmbolo ' ” si cae por 

debajo de 3.9, y omitimos las dos mediciones que son iguales a 3.9, obtenemos 
la secuencia 


para la que m = 6, 7 x 2 = 7 y v = 6. Por lo tanto, de la tabla A. 19, el valor P 
calculado es 


P = 2 P{V > 8 cuando H 0 es real) = 2(0.5) = 1. 


6 . Decision: No rechace la hipotesis de que la secuencia de mediciones varia de for- 
ma aleatoria. 
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La prueba de corridas, aunque menos poderosa, tambien se utiliza como una al- 
ternativa para la prueba de dos muestras de Wilcoxon, para probar la afirmacion de 
que dos muestras aleatorias provienen de poblaciones que tienen la misma distribu- 
tion y, por lo tanto, medias iguales. Si las poblaciones son simetricas, el rechazo de la 
afirmacion de distribuciones iguales es equivalente a aceptar la hipotesis alternativa 
de que las medias no son iguales. A1 llevar a cabo la prueba, primero combinamos 
las observaciones de ambas muestras y las acomodamos en orden ascendente. Asig- 
namos ahora la letra A a cada observation tomada de una de las poblaciones; y la 
letra B, a cada observation de la segunda poblacion. Asf se genera una secuencia que 
consiste en los snnbolos A y B. Si las observaciones de una poblacion empatan con 
las observaciones de la otra poblacion, la secuencia de snnbolos Ay B que se genera 
no sera unica y, en consecuencia, es poco probable que el numero de corridas sea uni- 
co. Los procedimientos para quitar los empates, por lo general, tienen como resultado 
tediosos calculos adicionales, y por tal razon se preferirfa la aplicacion de la prueba 
de la suma de rangos de Wilcoxon siempre que ocurran dichas situaciones. 

Para ilustrar el uso de las corridas en la prueba de medias iguales, considere los 
tiempos de sobrevivencia de los pacientes de leucemia del ejercicio 16.16 de la pagina 
686 para los que tenemos 

0.5 0.9 1.4 1.9 2.1 2.8 3.1 4.6 5.3 

BAABABBAA 

de donde resultan v = 6 corridas. Si las dos poblaciones simetricas tienen medias 
iguales, las observaciones de las dos muestras estaran entremezcladas, lo cual dara 
como resultado muchas corridas. Sin embargo, si las medias poblacionales son signi- 
ficativamente diferentes, esperarfamos que la mayorfa de las observaciones para una 
de las dos muestras fueran mas pequenas que las de la otra muestra. En el caso ex- 
tremo donde las poblaciones no se traslapan, obtendrfamos una secuencia de la forma 

AAAAABBBB o BBBBAAAAA 

y en cualquier caso solo hay dos corridas. En consecuencia, la hipotesis de medias 
poblacionales iguales se rechazara en el nivel de significancia a solo cuando v es 
suficientemente pequena, de modo que 

P = P(V < v cuando Hq es real) < a , 
lo que implica una prueba de una cola. 

De regreso a los datos del ejercicio 16.16 de la pagina 686 para los que m = 4, 
n 2 = 5 y v = 6, de la tabla A. 19 encontramos que 

P = P(V < 6 cuando Hq es real) = 0.786 > 0.05 


y, por lo tanto, no se rechaza la hipotesis nula de medias iguales. De aquf concluimos 
que el nuevo suero no prolonga la vida al no detener la leucemia. 

Cuando n\ y n 2 aumentan en tamano, la distribution de muestreo de V se apro- 
xima a la distribution normal con media 


bv = 


2nin2 
n 1 + n 2 


+ 1 


y varianza 


2 niri 2 ( 2 niri 2 — n\ — n 2 ) 
(ni + n 2 ) 2 (ni + n 2 — 1) ' 


En consecuencia, cuando n\ y n 2 son ambos mayores que 10, se puede utilizar el 
estadfstico 


cry 

para establecer la region crftica para la prueba de corridas. 
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16.6 Lfmites de tolerancia 

Los lfmites de tolerancia para una distribution normal de mediciones se presenta en 
el capitulo 9. En esta section consideramos un metodo para construir intervalos de 
tolerancia que sean independientes de la forma de la distribution subyacente. Como 
se podrfa sospechar, para un grado de confianza razonable seran considerablemente 
mas grandes que los que se construyen cuando se supone la normalidad, y el tamano 
de la muestra que se requiere es, por lo general, muy grande. Los lfmites de tolerancia 
no parametricos se establecen en funcion de las observaciones mas grande y mas 
pequena en nuestra muestra. 


Lfmites de 
tolerancia 
bilaterales 

Para cualquier distribution de mediciones, los lfmites de tolerancia bilaterales se 
indican mediante las observaciones mas grandes en una muestra de tamano n, 
donde n se determina de manera que se afirme con una confianza de (1 — 7)100% 
que, al menos, la proportion 1 — a de la distribution esta incluida entre los 
extremos de la muestra. 


La tabla A. 20 da los tamanos muestrales que se requieren para valores selec- 
cionados de 7 y 1 — a. Por ejemplo, cuando 7 = 0.01 y 1 — a = 0.95, debemos 
elegir una muestra aleatoria de tamano n = 130, con la finalidad de tener 99% de 
confianza de que al menos 95% de la distribution de mediciones esta incluida entre 
los extremos de la muestra. 

En vez de determinar el tamano muestral n de modo que una proportion es- 
pecffica de mediciones este contenida entre los extremos de la muestra, en muchos 
procesos industriales es deseable determinar el tamano de la muestra, de forma que 
una proportion fija de la poblacion caiga por debajo de la observation mas gran- 
de (0 por arriba de la mas pequena) de la muestra. Tales lfmites se llaman lfmites de 
tolerancia unilaterales. 

Lfmites de 
tolerancia 
unilaterales 

Para cualquier distribution de mediciones, un lfmite de tolerancia unilateral se 
determina mediante la observation mas pequena (0 mas grande) en una mues- 
tra de tamano n, donde n se determina de manera que se pueda asegurar con 
(1 — 7)100% que, al menos, la proportion 1 — a de la distribution excedera la 
mas pequena (sera menor que la mayor) observation de la muestra. 


La tabla A. 21 muestra los tamanos muestrales requeridos correspondientes a va- 
lores seleccionados de 7 y 1 — a. De aquf, cuando 7 = 0.05 y 1 — a = 0.70, debemos 
elegir una muestra de tamano n = 9, para tener una confianza de 95% de que 70% de 
nuestra distribution de mediciones excedera la observation mas pequena de la muestra. 


16.7 Coeficiente de correlation de rango 

En el capitulo 11 utilizamos el coeficiente de correlation muestral r para medir la re- 
lation lineal entre dos variables continuas X y Y. Si los rangos 1, 2,..., n se asignan a 
las observaciones x en orden de magnitud y de manera similar a las observaciones y, 
y si estos rangos se sustituyen despues con los valores numericos reales en la formula 
para el coeficiente de correlation del capitulo 11, obtenemos la contraparte no pa- 
rametrica del coeficiente de correlation conventional. Un coeficiente de correlation 
calculado de esta forma se conoce como coeficiente de correlation de rangos de 
Spearman, y se denota con r s . Cuando no hay empates entre ambos conjuntos de me- 
diciones, la formula para r s se reduce a una expresion mucho mas simple que incluye 
las diferencias di entre los rangos asignados a los n pares de x y y, que establecemos 
ahora. 
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Coeficiente de 
correlation 
de rango 


Ejemplo 16.8: 


Solucion: 


Una medicion no parametrica de la asociacion entre dos variables X y Y esta dada 

por el coeficiente de correlation de rango 


= 1 


n(n 2 — 1) 

v ' i= 1 


donde dt es la diferencia entre los rangos asignados Xi y y,, y n es el numero de 
pares de datos. 

En la practica la formula anterior tambien se usa cuando hay empates entre las 
observaciones x o y. Los rangos para observaciones empatadas se asignan como en 
la prueba de rango con signo al promediar los rangos que se habrfan asignado si las 
observaciones fueran distinguibles. 

El valor de r s , por lo general, estara cercano al valor que se obtiene al encontrar 
r con base en mediciones numericas y se interpreta casi en la misma forma. Como 
antes, el valor de r s ira de —1 a +1. Un valor de +1 o —1 indica una asociacion 
perfecta entre X y Y, el signo mas ocurre para rangos identicos y el signo menos 
para rangos inversos. Cuando r s es cercano a cero, concluirfamos que las variables 
no estan correlacionadas. 


Las cifras que se listan en la tabla 16.7, publicadas por la Comision Federal de 
Comercio, muestran los miligramos de alquitran y nicotina que se encuentra en 10 
marcas de cigarrillos. Calcule el coeficiente de correlation de rangos para medir el 
grado de relation entre el contenido de alquitran y nicotina en cigarrillos. 


Tabla 16.7: Contenidos de alquitran y nicotina 


Marca de cigarrillo 

Contenido de alquitran 

Contenido de nicotina 

Viceroy 

14 

0.9 

Marlboro 

17 

1.1 

Chesterfield 

28 

1.6 

Kool 

17 

1.3 

Kent 

16 

1.0 

Raleigh 

13 

0.8 

Old Gold 

24 

1.5 

Philip Morris 

25 

1.4 

Oasis 

18 

1.2 

Players 

31 

2.0 


Representemos con X y Y los contenidos de alquitran y nicotina, respectivamente. 
Primero asignamos rangos a cada conjunto de medidas, con el rango de 1 asignado al 
numero mas bajo en cada conjunto, el rango de 2 al segundo numero mas bajo en 
cada conjunto, y asi sucesivamente, hasta que se asigna el rango 10 al numero mas 
grande. La tabla 16.8 muestra los rangos individuales de las mediciones y las dife- 
rencias en rangos para los 10 pares de observaciones. 
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Tabla 16.8: Rangos para los contenidos de alquitran y nicotina 


Marca de cigarrillo 

Xi 

Vi 


Viceroy 

2 

2 

0 

Marlboro 

4.5 

4 

0.5 

Chesterfield 

9 

9 

0 

Kool 

4.5 

6 

-1.5 

Kent 

3 

3 

0 

Raleigh 

1 

1 

0 

Old Gold 

7 

8 

-1 

Philip Morris 

8 

7 

1 

Oasis 

6 

5 

1 

Players 

10 

10 

0 


A1 sustituir en la formula para r s , encontramos que 


(6)(5.50) 

( 10 )( 100 - 1 ) 


0.967, 


lo que indica una correlacion positiva alta entre la cantidad de alquitran y de nico- 
tina que se encuentra en los cigarrillos. 

Hay algunas ventajas al usar r s en vez de r. Por ejemplo, ya no suponemos que la 
relacion fundamental entre X y Y es lineal y, por lo tanto, cuando los datos poseen 
una relacion curvilfnea distinta, el coeficiente de correlacion de rangos probablemente 
sera mas confiable que la medicion convencional. Una segunda ventaja del uso del 
coeficiente de correlacion de rangos es el hecho de que no se hacen suposiciones de 
normalidad con respecto a las distribuciones de X y Y. Quiza la mayor ventaja ocu- 
rre cuando se es incapaz de hacer mediciones numericas significativas y, sin embar- 
go, se pueden establecer rangos. Tal es el caso, por ejemplo, cuando diferentes jueces 
clasifican a un grupo de individuos de acuerdo con algun atributo. El coeficiente de 
correlacion de rangos se puede utilizar en esta situation como una medida de la con- 
sistency de los dos jueces. 

Para probar la hipotesis de que p = 0 con el uso de un coeficiente de correlacion 
de rangos, se necesita considerar la distribution muestral de los valores r s , bajo la 
suposicion de no correlacion. En la tabla A. 22 aparecen valores crfticos calculados 
para a = 0.05, 0.025, 0.01 y 0.005. La elaboration de esta tabla es similar a la tabla 
de valores crfticos para la distribution t, excepto para la columna izquierda, que 
ahora da el numero de pares de observaciones en vez de los grados de libertad. Como 
la distribution de los valores r s es simetrica alrededor de cero cuando p = 0, el valor 
r s que deja un area de a a la izquierda es igual al negativo del valor r s que deja un 
area cc a la derecha. Para una hipotesis alternativa bilateral, la region crftica de ta- 
mano a cae igualmente en las dos colas de la distribution. Para una prueba en la que 
la hipotesis alternativa es negativa, la region crftica esta completamente en la cola 
izquierda de la distribution y, cuando la alternativa es positiva, la region crftica se 
coloca por complete en la cola derecha. 
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Ejemplo 16.9:1 Refierase al ejemplo 16.8 y pruebe la hipotesis de que la correlacion entre la cantidad 
de alquitran y nicotina en los cigarrillos es cero contra la alternativa de que es mayor 
que cero. Utilice un nivel de significancia de 0.01. 

Solucion: 1. Ho : p = 0. 

2 . // 1 : p > 0 . 

3. a = 0.01. 

4. Region crftica: r s > 0.745, de la tabla A. 22. 

5. Calculos: Del ejemplo 16.8, r s = 0.967. 

6. Decision: Rechace Ho y concluya que hay una correlacion significativa entre la 
cantidad de alquitran y nicotina que se encuentra en los cigarrillos. 

Con la suposicion de no correlacion, se puede mostrar que la distribution de los 
valores r s se aproxima a una distribution normal con una media 0 y desviacion 
estandar de 1 / y/n — 1 conforme n aumenta. En consecuencia, cuando n excede los 
valores dados en la tabla A. 22, se podrta probar la correlacion de significancia me- 
diante el calculo de 


z = 


r s ~ 0 

1 /yjn — 1 


= r s \Jn - 1 


y la comparacion con los valores crfticos de la distribution normal estandar que se 
muestran en la tabla A. 3. 


Ej ercicios 

16.23 Se selections una muestra aleatoria de 15 adul- 
tos que viven en una pequena ciudad, con la finalidad 
de estimar la proportion de votantes que favorecen 
a cierto candidato para alcalde. Tambien se le pre- 
gunto a cada individuo si era graduado universitario. 
Se obtiene la siguiente secuencia, al hacer que Y y N 
designen las respuestas de “si” y “no” a la pregunta 
sobre instruction: 

NNNNYYNYYNYNNNN 

Utilice la prueba de corridas en el nivel de significancia 
de 0.1, para determinar si la secuencia apoya la afirma- 
cion de que la muestra se selecciono al azar. 

16.24 Se utiliza un proceso de plateado para cubrir 
cierto tipo de charola de servicio. Cuando el proceso 
esta bajo control, el espesor de la plata sobre la cha- 
rola variara de forma aleatoria siguiendo una distri- 
bution normal con una media de 0.02 milfmetros y 
una desviacion estandar de 0.005 milfmetros. Suponga 
que las siguientes 12 charolas examinadas muestran 
los siguientes espesores de plata: 0.019, 0.021, 0.020, 
0.019, 0.020, 0.018, 0.023, 0.021, 0.024, 0.022, 0.023, 
0.022. Utilice la prueba de corridas para determinar 
si las fluctuaciones en el espesor de una charola a otra 
son aleatorias. Sea a = 0.05. 


16.25 Use la prueba de corridas para probar si hay una 
diferencia en el tiempo promedio de operation para las 
dos calculadoras del ejercicio 16.17 en la pagina 686. 

16.26 En una lfnea de production industrial, los ar- 
tfculos se inspeccionan de forma periodica en busca de 
defectuosos. Lo siguiente es una secuencia de artfcu- 
los defectuosos, D, y no defectuosos, N, producidos por 
esta lfnea: 

DDNNNDNNDDNNNN 

NDDDNNDNNNNDND 

Utilice la teorfa de muestras grandes para la prueba 
de corridas, con un nivel de significancia de 0.05, para de- 
terminar si los defectuosos ocurren o no al azar. 

16.27 Suponga que las mediciones del ejercicio 1.14 
de la pagina 28 se registran en renglones sucesivos de 
izquierda a derecha conforme se reunen, utilice la prue- 
ba de corridas, con a = 0.05, para probar la hipotesis 
de que los datos representan una secuencia aleatoria. 

16.28 f,Que tan grande se requiere que sea una mues- 
tra para tener 95% de confianza de que al menos 85% 
de la distribution de medidas se incluye entre los extre- 
mos de la muestra? 
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16.29 ,i,Cual es la probabilidad de que el rango de una 
muestra aleatoria de tamano 24 incluya al menos 90% 
de la poblacion? 

16.30 ^Que tan grande se requiere que sea una 
muestra para tener 99% de confianza de que al me- 
nos 80% de la poblacion sea menor que la observa- 
tion mas grande de la muestra? 

16.31 ,i,Cual es la probabilidad de que al menos 95% 
de una poblacion exceda el valor mas pequeno en una 
muestra aleatoria de tamano n = 135? 

16.32 La siguiente tabla da las calificaciones regis- 
tradas de 10 estudiantes en un examen de mitad del 
semestre y la del examen final en un curso de calculo: 

Examen 

de mitad Examen 

Estudiante del semestre final 


L.S.A. 

84 

73 

W.P.B. 

98 

63 

R.W.K. 

91 

87 

J.R.L. 

72 

66 

J.K.L. 

86 

78 

D.L.P. 

93 

78 

B.L.P. 

80 

91 

D.W.M. 

0 

0 

M.N.M. 

92 

88 

R.H.S. 

87 

77 


a) Calcule el coeficiente de correlation de rangos. 

b) Pruebe la hipotesis nula de que p = 0 contra la al- 
ternativa de que p > 0. Utilice a = 0.025. 

16.33 Con referenda a los datos del ejercicio 11.1 de la 
pagina 397, 

a) calcule el coeficiente de correlation de rangos; 

b) en el nivel de significancia 0.05 pruebe la hipotesis 
nula de que p = 0 contra la alternativa de que p 0. 
Compare sus resultados con los que se obtienen en 
el ejercicio 11.53 de la pagina 438. 

16.34 Calcule el coeficiente de correlation de rangos 
para la precipitation pluvial diaria y la cantidad de 
partfculas eliminadas en el ejercicio 11.9 de la pagina 
399. 

16.35 Con referenda a los pesos y tamanos del torax 
de los infantes del ejercicio 11.52 en la pagina 438, 

a) calcule el coeficiente de correlation de rangos; 


b) en el nivel de significancia 0.025 pruebe la hipotesis 
de que p = 0 contra la alternativa de que p > 0. 

16.36 Un grupo de consumidores prueba la calidad 
general de nueve marcas de hornos de microondas. Los 
rangos asignados por el grupo y los precios de venta 
sugeridos son los siguientes: 

Clasificacion Precio 
Fabricantc del grupo sugcrido 


A 

6 

$480 

B 

9 

395 

C 

2 

575 

D 

8 

550 

E 

5 

510 

F 

1 

545 

G 

7 

400 

H 

4 

465 

I 

3 

420 


^Existe una relation significativa entre la calidad y el 
precio de un homo de microondas? Utilice un nivel de 
significancia de 0.05. 

16.37 En un desfile de regreso a clases dos jueces cali- 
fican ocho carros alegoricos en el siguiente orden: 

Carro alegorico 

12345678 

Juez A 58436271 

Juez B 75428163 

a) Calcule la correlation de rangos. 

b) Pruebe la hipotesis nula de que p = 0 contra la alter- 
nativa de que p > 0. Use a = 0.05. 

16.38 En el artfculo titulado “Risky Assumptions” 
de Paul Slovic, Baruch Fischoff y Sarah Lichtenstein, pu- 
blicado en Psychology Today (junio de 1980), miembros 
de la Liga de Mujeres Votantes y expertos profesional- 
mente implicados en la evaluation de riesgos clasificaron 
el riesgo de muerte, en Estados Unidos, para 30 activi- 
dades y tecnologfas. Las puntuaciones se presentan en 
la tabla 16.9. 

a) Calcule el coeficiente de correlation de rangos. 

b) Pruebe la hipotesis nula de cero correlation entre las 
clasificaciones de la Liga de Mujeres Votantes y de 
los expertos contra la alternativa de que la correla- 
tion no es cero. Utilice un nivel de significancia de 
0.05. 
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Tabla 16.9: Datos de puntuacion para el ejercicio 16.38 


Riesgo de la actividad 
o tecnologfa 

Votantes 

Expertos 

Riesgo de la actividad 
o tecnologfa 

Votantes 

Expertos 

Energfa nuclear 

1 

20 

Vehfculos de motor 

2 

1 

Armas de fuego 

3 

4 

Tabaquismo 

4 

2 

Motocicletas 

5 

6 

Bebidas alcoholicas 

6 

3 

Aviation privada 

7 

12 

Trabajo policiaco 

8 

17 

Pesticidas 

9 

8 

Cirugfa 

10 

5 

Bombero 

11 

18 

Construction 

12 

13 

Cacerfa 

13 

23 

Latas de aerosol 

14 

26 

Montanismo 

15 

29 

Bicicletas 

16 

15 

Aviation comercial 

17 

16 

Energfa electrica 

18 

9 

Natation 

19 

10 

Anticonceptivos 

20 

11 

Esquf 

21 

30 

Rayos X 

22 

7 

Futbol americano 

23 

27 

Ferrocarriles 

24 

19 

Conservadores 



Colorantes 



de alimentos 

25 

14 

de alimentos 

26 

21 

Podadoras 

27 

28 

Antibioticos 

28 

24 

Electrodomesticos 

29 

22 

Vacunas 

30 

25 


Ejercicios de repaso 


16.39 Un estudio de una companfa qufmica compara 
las propiedades de desecacion de dos diferentes polfme- 
ros. Se utilizaron 10 lodos diferentes y se permitio que 
ambos polfmeros secaran cada lodo. El secado libre se 
midio en ml/min. 

a) Utilice la prueba de signos en el nivel 0.05 para pro- 
bar la liipotesis nula de que el polfmero A tiene la 
misma mediana de secado que el polunero B. 

b ) Utilice la prueba de rangos con signo para probar la 
hipotesis del inciso a). 


Tipo de lodo Polfmero A Polfmero B 


1 

12.7 

12.0 

2 

14.6 

15.0 

3 

18.6 

19.2 

4 

17.5 

17.3 


Tipo de lodo 

Polfmero A 

Polfmero B 

5 

11.8 

12.2 

6 

16.9 

16.6 

7 

19.9 

20.1 

8 

17.6 

17.6 

9 

15.6 

16.0 

10 

16.0 

16.1 


16.40 En el ejercicio de repaso 13.58 de la pagina 
568, use la prueba de Kruskal- Wallis, en el nivel de 
significancia de 0.05, para determinar si los analisis 
qufmicos realizados por los cuatro laboratories dan, en 
promedio, los mismos resultados. 

16.41 Use los datos del ejercicio 13.12 de la pagina 
533 para ver si la cantidad mediana de perdida de ni- 
trogeno en la transpiration es diferente para los tres 
niveles de protefna dietetica. 




Capftulo 17 

Control estadfstico de la calidad 


17.1 Introduccion 

La nocion del uso de las tecnicas de muestreo y de analisis estadfstico en un escenario 
de produccion tiene sus comienzos en la decada de 1920. El objetivo de este concep- 
to altamente exitoso es la reduccion sistematica de la variabilidad y el aislamiento 
asociado de las fuentes de dificultades durante la produccion. En 1924 Walter A. 
Shewhart de la empresa Bell Telephone Laboratories desarrollo el concepto de una 
grafica de control. Sin embargo, no fue sino hasta la Segunda Guerra Mundial que 
se generalizo el uso de graficas de control. Esto se debio a la importancia de mante- 
ner la calidad en los procesos de produccion durante ese periodo. En las decadas de 
1950 y 1960 el desarrollo del control de calidad y el area general de seguridad de la 
calidad crecieron de manera rapida, en particular con el surgimiento del programa 
espacial en Estados Unidos. En Japon hubo un amplio y exitoso uso del control de 
calidad gracias a los esfuerzos de W. Edwards Deming, quien trabajo como consultor 
en Japon clespues de la Segunda Guerra Mundial. El control de calidad ha sido, y es, 
un elemento importante en el desarrollo de la industria y de la economfa nipones. 

El control de calidad recibe una creciente atencion como herramienta de admi- 
nistration en la que importantes caracterfsticas de un producto se observan, evaluan 
y comparan con algun tipo de estandar. Los diversos procedimientos en el control de 
calidad implican un uso considerable de los procedimientos de muestreo y principios 
estadfsticos, que ya estudiamos en capftulos anteriores. Los usuarios principals del 
control de calidad son, por supuesto, las corporaciones industrials. Resulta claro 
que un programa eficaz de control de calidad aumenta tanto la calidad del artfculo que 
se produce como las utilidades. Esto es particularmente cierto en la actualidad, pues 
los productos se fabrican en volumenes altos. Antes del movimiento hacia los meto- 
dos de control, la calidad a menudo sufrfa a causa de la falta de eficiencia que, por 
supuesto, incrementa los costos. 

La grafica de control 

El proposito de una grafica de control es cleterminar si el desempeho de un proceso 
se mantiene en un nivel aceptable de calidad. Se espera, clesde luego, que cualquier 
proceso experimente una variabilidad natural, es decir, variabilidad clebida esencial- 
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mente a fuentes de variation poco importantes e incontrolables. Por otro lado, un 
proceso puede experimentar tipos mas serios de variabilidad en mediciones de des- 
empeiio claves. Estas fuentes de variabilidad pueden surgir de uno de varios tipos 
de “causas asignables” no aleatorias, como errores del operador o indicadores mal 
ajustados en una maquina. Un proceso que opera en dicho estado se denomina fue- 
ra de control. Se dice que un proceso que experimenta solo variaciones aleatorias 
esta en control estadfstico. Desde luego, un proceso de production exitoso puede 
operar en un estado de control durante un periodo largo. Se supone que durante 
este periodo el proceso elabora un producto aceptable. Sin embargo, quizas haya un 
“corrimiento” gradual o repentino que requiera detection. 

Una grafica de control tiene la finalidad de ser un dispositivo para cletectar el 
estado no aleatorio o fuera de control de un proceso. Por lo general, la grafica de 
control toma la forma que se indica en la figura 17.1. Es importante que el corri- 
miento se detecte de forma rapida, de manera que se pueda corregir el problema. 
Evidentemente, si la detection es lenta se producen muchos artfculos defectuosos o 
fuera de las especificaciones, lo cual da como resultado un desperdicio significativo y 
un incremento en los costos. 


13 

12 


S ii 


B 10 

o 


CO 

i_ 

o 


23456789 10 

Tiempo 


Figura 17.1: Grafica de control tfpica. 


Se deben considerar algunos tipos de caracterfsticas de la calidad y las unidades 
del proceso se deben muestrear conforme pasa el tiempo. Por ejemplo, la caracterfs- 
tica puede ser la circunferencia de un cojinete de motor. La lfnea central representa 
el valor promedio de la caracterfstica cuando el proceso esta controlado. Los puntos que 
se indican en la figura representarfan los resultados de, digamos, promedios mues- 
trales de tal caracterfstica, con las muestras tomadas respecto al tiempo. Los lfmites 
de control superior e inferior se eligen de modo que se esperarfa que todos los puntos 
muestrales queden cubiertos por estos lfmites, si el proceso esta controlado. Como 
resultado, la forma general de los puntos graficados respecto al tiempo determina si 
se concluye que el proceso esta dentro de control. La evidencia para estar “dentro de 
control” se obtiene de un patron aleatorio de puntos, con todos los valores graficados 
dentro de los lfmites de control. Cuando un punto cae fuera de los lfmites de control, 
esto se toma como evidencia de un proceso que esta fuera de control, y se sugiere una 
busqueda de la causa. Ademas, un patron no aleatorio de puntos se puede considerar 
sospechoso y en realidad una indication de que se necesita una investigation de la 
action correctiva adecuada. 
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17.2 Naturaleza de los lfmites de control 

Las ideas fundamentales en las que se basan las graficas de control son similares en 
estructura a la prueba de hipotesis. Los lfmites de control se establecen para con- 
trolar la probabilidad de cometer el error de concluir que el proceso esta fuera de 
control, cuando de hecho no lo esta. Esto corresponde a la probabilidad de cometer 
un error tipo I, si probaramos la hipotesis nula de que el proceso esta bajo control. 
Por otro lado, debemos estar atentos al error del segundo tipo; a saber, no encontrar 
el proceso fuera de control cuando de hecho sf lo esta (error tipo II) . De esta manera, 
la election de los lfmites de control es similar a la election de una region crftica. 

Como en el caso de la prueba de hipotesis, es importante el tamano de la muestra 
en cada punto. La consideration del tamano de la muestra depende, en gran medida, 
de la sensibilidad o potencia de detection del estado fuera de control. En esta apli- 
cacion, la notion de potencia es muy similar a la situation de la prueba de hipotesis. 
Es claro que cuanto mas grande sea la muestra en cada periodo, mas rapida sera la 
detection de un proceso fuera de control. En un sentido, los lfmites de control en 
realidad definen lo que el usuario considera como estar bajo control. En otras pa- 
labras, evidentemente la anchura dada por los lfmites de control debe depender en 
cierto sentido de la variabilidad del proceso. Como resultado, el calculo de los lfmites 
de control dependera por complete de manera natural de los clatos que se tomen de 
los resultados del proceso. De esta forma, cualquier control de calidad debe tener su 
comienzo en el calculo a partir de una muestra preliminar o conjunto de muestras, 
que estableceran tanto la lfnea central como los lfmites de control de calidad. 


17.3 Propositos de la grafica de control 

Un proposito evidente de la grafica de control es la mera vigilancia del proceso, es 
decir, cleterminar si se necesitan realizar cambios. Ademas, la constante obtencion 
sistematica de clatos a menudo permite a la administration evaluar la capacidad 
del proceso. Claramente, si una sola caracterfstica de desempeho es importante, el 
muestreo y la estimation continuos de la media y la desviacion estandar de la carac- 
terfstica de desempeho ofrece la actualization de lo que el proceso puede hacer en 
terminos de desempeho medio y variation aleatoria. Esto es valioso aun si el proceso 
permanece bajo control durante periodos largos. La estructura sistematica y formal 
de la grafica a menudo puede prevenir una reaction desmesurada ante cambios que 
representen solo fluctuaciones aleatorias. En efecto, en muchas situaciones, los cam- 
bios realizados por una reaction desmesurada llega a crear problemas serios, diffciles 
de resolver. 

Las caracterfsticas de calidad de las graficas de control caen, por lo general, en dos 
categorfas: variables y atributos. Como resultado, los tipos de graficas de control 
con frecuencia tienen las mismas clasificaciones. En el caso de las graficas de tipo 
variables, la caracterfstica, por lo general, es una medicion sobre un continuo, como 
diametro, peso, etcetera. Para la grafica de atributos, la caracterfstica rcflcja si el 
producto individual concuerda (es o no defectuoso). Las aplicaciones de estas dos 
situaciones distintas son evidentes. 

En el caso de la grafica de variables, se debe ejercer control sobre la tendencia 
central y la variabilidad. Un analista de control de calidad se debe preocupar de si 
existe en promedio un corrimiento de los valores de la caracterfstica de desempeho. 
Ademas, siempre habra interes acerca de si algun cambio en las condiciones del 
proceso tiene como resultado una disminucion en la precision (es decir, un aumento 
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en la variabilidad). Para tratar con estos dos conceptos son esenciales graficas de 
control separadas. La tendencia central esta controlada por la grafica X, donde las 
medias de muestras relativamente pequenas se grafican en la grafica de control. La va- 
riabilidad alrededor de la media se controla mediante el rango en la muestra, o la 
desviacion estandar muestral. En el caso de muestreo de atributos, la proporcion de 
defectuosos de una muestra a menudo es la cantidad que se grafica. En la siguiente 
section analizamos el desarrollo de graficas de control para la caracterfstica de desem- 
peno tipo variable. 


17.4 Graficas de control para variables 

Un ejemplo es una forma relativamente facil para entender los rudimentos de la gra- 
fica X para variables. Suponga que las graficas de control de calidad se deben utilizar 
en un proceso de fabrication de cierta parte de un motor. Suponga que la media 
del proceso es p = 50 mm y que la desviacion estandar es a = 0.01 mm. Suponga 
que se muestrean grupos de 5 cada hora, y que los valores de la media muestral 
X se registran y grafican como en la figura 17.2. Los lfmites para las graficas X se 
basan en la desviacion estandar de la variable aleatoria X. Sabemos del material del 
capitulo 8 que para el promedio de observaciones independientes en una muestra 
de tamano n, 


IX 


50.02 

UCL 

50.00 

LCL 

49.98 


01 23456789 10 


Figura 17.2: Los limites de control 3er para el ejemplo de la parte del motor. 


a 



donde a es la desviacion estandar de una observation individual. Los limites de con- 
trol se determinan de manera que tengan como resultado una pequena probabilidad 
de que un valor dado de X este fuera de los limites dado que, en realidad, el proceso 
esta bajo control (es decir, p = 50). Si recurrimos al teorema del limite central, te- 
nemos que bajo la condition de que el proceso esta bajo control, 

Como resultado, (1 — a) 100% de los valores X cae dentro de los limites cuando el 
proceso esta bajo control si utilizamos los limites 
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LCL — /£ — -2'ck/2 — — 50 — '^'ct/2 (0.0045), UCL — f-t 4“ Z. a i 2 — 7 = — 50 4“ Z a 1 2 (0.0045) . 

\Jn V n 

Aquf, lcl y ucl representan limite de control inferior y limite de control superior, 
respectivamente. Con frecuencia las graficas X se basan en lfmites que se denominan 
como limites “tres-sigma” , con referencia, por supuesto, a z a l 2 = 3 y a limites que 
se convierten en 


, o a 

M ± 3— ^=. 

s/n 

En nuestro ejemplo los limites superior e inferior son 

lcl = 50 - 3(0.0045) = 49.9865, ucl = 50 + 3(0.0045) = 50.0135. 

De esta forma, si vemos la estructura de los limites 3 o desde el punto de vista de la 
prueba de hipotesis, para un punto muestral dado, la probabiliclad de que el valor 
X caiga fuera de los limites de control es 0.0026, dado que el proceso esta bajo con- 
trol. Esta es la probabilidad de que el analista determine de manera erronea que el 
proceso esta fuera de control (vease la tabla A. 3). 

El ejemplo anterior no solo ilustra la grafica X para variables, sino tambien deberia 
proporcionar al lector una idea de la naturaleza de las graficas de control en general. 
La linea central, por lo general, rcfleja el valor ideal de un parametro importante. Los 
limites de control se establecen a partir del conocimiento de las propiedades de mues- 
treo del estadistico, que estima el parametro en cuestion. Muy a menudo estos impli- 
can un multiplo de la desviacion estandar del estadistico. Se ha vuelto una practica 
general utilizar limites 3er. En el caso de la grafica X que se proporciona aqui, el teo- 
rema del limite central brinda al usuario una buena aproximacion de la probabilidad 
de determinar en falso que el proceso esta fuera de control. En general, sin embargo, 
quizas el usuario no confie en la normalidad del estadistico de la linea central. Como 
resultado, tal vez no se conozca la probabilidad exacta de un “error tipo I” . A pesar de 
esto, es casi estandar el uso de limites ko. Mientras el uso de los limites 3<r es amplio, 
a veces el usuario puede desear clesviarse de esta aproximacion. Un multiplo menor 
de er quiza sea apropiado cuando es importante cletectar de forma rapida una situa- 
tion fuera de control. Debido a consideraciones economicas, puede resultar costoso 
permitir que un proceso continue funcionando fuera de control, incluso por periodos 
cortos; mientras que el costo de la busqueda y correction de las causas imputables 
puede ser relativamente pequeno. Es claro, en este caso, que son adecuados los limi- 
tes de control que son mas estrictos que los limites 3a. 


Subgrupos racionales 

Los valores muestrales a ser usados en un esfuerzo de control de calidad se dividen 
en subgrupos con una muestra que representa un subgrupo. Como indicamos antes, 
el orden en el tiempo de production es en realidad una base natural para la selection 
de los subgrupos. Se puede ver el esfuerzo de control de calidad de manera muy sim- 
ple como 1 . muestreo, 2 . detection de un estado fuera de control y 3 . busqueda de 
las causas imputables que puedan ocurrir con el tiempo. La selection de la base para 
estos grupos muestrales parece ser bastante directa. La election de estos subgrupos 
de information muestral podria tener un efecto importante en el exito del programa de 
control de calidad. Estos subgrupos con frecuencia se denominan subgrupos ra- 
cionales. Generalmente, si el analista se interesa en la detection de un corrimiento 
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de la ubicacion , se considera que los subgrupos se deben elegir de manera que la 
variabilidad dentro del subgrupo sea pequena, y que las causas asignables, si se pre- 
sentaran, puedan tener la mayor posibilidad de detection. Asi, deseamos elegir los 
subgrupos de forma que se maximice la variabilidad entre subgrupos. La election de 
unidades en un subgrupo que se producen en tiempos muy cercanos, por ejemplo, 
es una aproximacion razonable. Por otro lado, las graficas de control a menudo se 
utilizan para controlar la variabilidad, en cuyo caso el estadi'stico de desempeno es 
la variabilidad dentro de la muestra. Por ello, es mas importante elegir los subgru- 
pos racionales para maximizar la variabilidad dentro de la muestra. En este caso, 
las observaciones en los subgrupos se deberian comportar mas como una muestra alea- 
toria y esta variabilidad dentro de las muestras necesita ser una description de la 
variabilidad del proceso. 

Es importante notar que las graficas de control sobre la variabilidad se deben esta- 
blecer antes del desarrollo de las graficas sobre el centro de ubicacion (digamos, grafi- 
cas X). Cualquier grafica de control sobre el centro de ubicacion en realidad dependera 
de la variabilidad. Por ejemplo, vimos un ejemplo de la grafica de tendencia central y 
esta depende de a. En las secciones que siguen, se presentara una estimation de er 
a partir de los datos. 


Graficas X con parametros estimados 

Ilustramos con anterioridad las nociones de la grafica X que usa el teorema del lf- 
mite central, y empleamos valores conocidos de la media y desviacion estandar del 
proceso. Como se indico, se utilizan los lfmites de control 


a a 

LCL = p — Z a /2— r=, UCL =fl + Z a / 2 —j= 

sjn y'n 

y un valor X que cae fuera de estos lfmites se considera evidencia de que la media p 
cambio y por ello el proceso quizas este fuera de control. 

En muchas situaciones practicas no es razonable suponer que conocemos p y a. 
Como resultado, se deben proporcionar estimaciones de los datos que se obtienen 
cuando el proceso esta bajo control. Tfpicamente, las estimaciones se determinan 
durante un periodo en el que se reune informacion de origen o de inicio. Se elige una 
base para subgrupos racionales y los datos se reunen con muestras de tamano n en 
cada subgrupo. Los tamanos muestrales, por lo general, son pequenos, digamos, 4, 
5 o 6, y se toman k muestras, con k al menos igual a 20. Durante este periodo en el 
que se supone que el proceso esta bajo control, el usuario establece estimaciones de 
p y a, sobre las que se basa la grafica de control. La informacion importante reunida 
durante este periodo incluye las medias muestrales en el subgrupo, la media general 
y el rango de la muestra en cada subgrupo. En los siguientes parrafos senalaremos 
como se utiliza esta informacion para producir la grafica de control. 

Una parte de la informacion muestral de estas k muestras toma la forma X±, 
X 2 , • • • , Xk, donde la variable aleatoria X t es el promedio de los valores en la i-esima 
muestra. Evidentemente, el promedio global es la variable aleatoria 


X 


Ef- 


fete es el estimador adecuado de la media del proceso y, como resultado, es la lfnea 
central en la grafica de control X. En aplicaciones de control de calidad a menudo 
es conveniente estimar a a partir de la informacion relacionada con los rangos en 
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las muestras, en vez de las desviaciones estandar de las muestras. Para la i-esima 
muestra definamos 


Ri = X n 


-X„ 


como el rango para los datos en la i-esima muestra. Aqui X m ^ Xt i y X nl ; n ,, son, res- 
pectivamente, la observation mas grande y la mas pequena en la muestra. La esti- 
mation apropiada de o es una funcion del rango promedio 



Una estimation de <r, digamos d, se obtiene mediante 


R 



donde d 2 es una constante que depende del tamano de la muestra. Los valores de d 2 
se muestran en la tabla A. 23. 

El uso del rango para producir una estimacion de o tiene sus raices en aplica- 
ciones del tipo de control de calidad, en particular debido a que el rango era muy 
facil de calcular (en la epoca anterior al periodo en que el tiempo de calculo no se 
considera una dificultad). La suposicion de normalidad de las observaciones indi- 
viduales esta implicita en la grafica X. Por supuesto, la existencia del teorema del 
limite central es ciertamente util a este respecto. Bajo la suposicion de normalidad, 
usamos una variable aleatoria que se denomina rango relativo, dada por 

W=*. 

<7 

Resulta que los momentos de W son funciones simples del tamano muestral n (vease 
la referencia a Montgomery, 2000, en la bibliografia) . El valor esperado de W a me- 
nudo se denomina d. 2 - Asf, al tomar el valor esperado de W anterior, 

® =d2 . 

o 

Como resultado, se comprende con facilidad el fundamento para la estimacion de 
<7 = R/d 2 - Se sabe bien que el metodo del rango produce un estimador eficiente de o 
en muestras relativamente pequenas. Esto hace que el estimador sea en particular 
atractivo en aplicaciones de control de calidad, ya que los tamanos muestrales en los 
subgrupos, por lo general, son pequenos. El uso del metodo del rango para la estima- 
cion de cr tiene como resultado graficas de control con los siguientes parametros: 


UCL = X + 



linea central = X, 


lcl = X — 


3 R 


d 2 y/n' 


A 2 — 


3 


d 2 \fn' 


Al definir la cantidad 
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tenemos que 


ucl = X + A 2 R, lcl = X - A 2 R. 


Para simplificar la estructura, el usuario de las graficas X a menudo encuentra valo- 
res tabulados de A 2 . En la tabla A. 23 se dan tabulaciones de los valores de A 2 para 
varios tamanos muestrales. 


Graficas R para control de variacion 

Hasta aquf todos los ejemplos y detalles trataron sobre el intento del analista de con- 
trol de calidad de detectar condiciones fuera de control producidas por un corrimiento 
en la media. Los lfmites de control se basan en la distribution de la variable aleato- 
ria X y dependen de la suposicion de normalidad de las observaciones individuales. 
Es importante para el control que se aplique a la variabilidad, asf como al centro de 
ubicacion. De hecho, muchos expertos consideran que el control de variabilidad de la 
caractertstica de desempeno es mas importante y que se debe establecer antes de con- 
siderar el centro de ubicacion. La variabilidad del proceso se puede controlar usando 
graficas del rango muestral. Una grafica de los rangos muestrales respecto al tiempo 
se denomina grafica R. Se puede utilizar la misma estructura general como en el 
caso de la grafica X , con R como linea central y los lfmites de control dependen de 
una estimation de la desviacion estandar de la variable aleatoria R. Asf, como en el 
caso de la grafica X, establecen lfmites 3 cr donde “3cr” implica 3or. La cantidad or 
se debe estimar a partir de los clatos, justo como se estima cry=. 

La estimation de cr R , la desviacion estandar, tambien se basa en la distribution 
del rango relativo 


V v — 

a 

La desviacion estandar de W es una funcion conocida del tamano muestral y, por lo 
general, se denota como d 3 . Entonces, 


or = crd 3 . 

Podemos reemplazar ahora a por <7 = R/d 2 , y de esta forma el estimador de cr r es 


or 


Rd 3 

d 2 


Asf las cantidades que definen la grafica R son 

ucl = RD 4 , lfnea central = R , lcl = RD 3 , 

donde las constantes £>4 y D 3 (dependiendo solo en n) son 


D a = 1 + 3 


(h_ 

d 2 


D 3 = 1 - 3 ^. 

0,2 


Las constantes y D% se tabulan en la tabla A. 23. 
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Graficas X y R para variables 

Se controla un proceso de fabrication de partes componentes para misiles, con la 
resistencia a la tension, en libras por pulgada cuadrada, como caracteristica de des- 
empeno. Se toman muestras de tamano 5 cada hora y se reportan 25 muestras. Los 
datos se muestran en la tabla 17.1. 


Tabla 17.1: Information muestral sobre datos de resistencia a la tension 


Numero de muestra 


Observaciones 


Xi 

R, 

1 

1515 

1518 

1512 

1498 

1511 

1510.8 

20 

2 

1504 

1511 

1507 

1499 

1502 

1504.6 

12 

3 

1517 

1513 

1504 

1521 

1520 

1515.0 

17 

4 

1497 

1503 

1510 

1508 

1502 

1504.0 

13 

5 

1507 

1502 

1497 

1509 

1512 

1505.4 

15 

6 

1519 

1522 

1523 

1517 

1511 

1518.4 

12 

7 

1498 

1497 

1507 

1511 

1508 

1504.2 

14 

8 

1511 

1518 

1507 

1503 

1509 

1509.6 

15 

9 

1506 

1503 

1498 

1508 

1506 

1504.2 

10 

10 

1503 

1506 

1511 

1501 

1500 

1504.2 

11 

11 

1499 

1503 

1507 

1503 

1501 

1502.6 

8 

12 

1507 

1503 

1502 

1500 

1501 

1502.6 

7 

13 

1500 

1506 

1501 

1498 

1507 

1502.4 

9 

14 

1501 

1509 

1503 

1508 

1503 

1504.8 

8 

15 

1507 

1508 

1502 

1509 

1501 

1505.4 

8 

16 

1511 

1509 

1503 

1510 

1507 

1508.0 

8 

17 

1508 

1511 

1513 

1509 

1506 

1509.4 

7 

18 

1508 

1509 

1512 

1515 

1519 

1512.6 

11 

19 

1520 

1517 

1519 

1522 

1516 

1518.8 

6 

20 

1506 

1511 

1517 

1516 

1508 

1511.6 

11 

21 

1500 

1498 

1503 

1504 

1508 

1502.6 

10 

22 

1511 

1514 

1509 

1508 

1506 

1509.6 

8 

23 

1505 

1508 

1500 

1509 

1503 

1505.0 

9 

24 

1501 

1498 

1505 

1502 

1505 

1502.2 

7 

25 

1509 

1511 

1507 

1500 

1499 

1505.2 

12 


Como indicamos antes, es importante en un principio establecer condiciones de 
la variabilidad “bajo control” . La linea central calculada de la grafica R es 


25 


r = y 5 J2 r > = 10 - 72 - 


i—1 


De la tabla A. 23 encontramos que para n = 5, D$ = 0 y D 4 = 2.115. Como resultado, 
los lmiites de control para la grafica R son 


lcl = RD 3 = (10.72)(0) = 0, 

ucl = RD 4 , = (10.72)(2.114) = 22.6621. 
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En la figura 17.3 se muestra la grafica R. Ninguno de los rangos graficados cae fuera 
de los lfmites de control. Como resultado, no hay indication de una situation fuera de 
control. 


o 

CT> 

c 

CO 


CC 


25 

UCL 

20 

15 

10 

5 


LCL = 0 1 

0 10 20 

Muestra 


30 


Figura 17.3: Grafica R para el ejemplo de resistencia a la tension. 


Ahora se puede construir la grafica X para las lecturas de la resistencia a la ten- 
sion. La lfnea central es 


= 1 _ 

I = -Vi ! = 1507.328. 

25 ^ 

i= 1 

Para muestras de tamano 5, encontramos de la tabla A. 23 que A 2 = 0.577. Por ello, 
los lfmites de control son 


ucl = X + A 2 R = 1507.328 + (0.577)(10.72) = 1513.5134, 
lcl = X - A 2 R = 1507.328 - (0.577)(10.72) = 1501.1426. 


En la figura 17.4 se muestra la grafica X. Como el lector puede observar, tres valores 
caen fuera de los lfmites de control. Como resultado, los lfmites de control para X 
no se deberfan usarse para la lfnea de control de calidad. 

Comentarios adicionales acerca de las graficas de control para variables 

Quiza un proceso parezca estar bajo control y, de hecho, permanecer bajo control 
durante un periodo largo. ^Esto necesariamente significa que el proceso opera exito- 
samente? Un proceso que opera bajo control es simplemente uno donde son estables 
la media y la variabilidad del proceso. Aparentemente, no ocurren cambios serios. 
“Bajo control” implica que el proceso permanece consistente con variabilidad na- 
tural. Las graficas de control de calidad pueden verse como un metodo en el que 
la variabilidad natural inherente rige la amplitud de los lfmites de control. No hay 
implication, sin embargo, de hasta que punto un proceso bajo control satisface las 
especificaciones predeterminadas que el proceso requiere. Las especificaciones son 
lfmites que establece el consumidor. Si la variabilidad natural actual del proceso es 
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Figura 17.4: Grafica X para el ejemplo de resistencia a la tension. 


mayor que la dictada por la especificacion, el proceso no producira artfculos que 
cumplan las especificaciones con una frecuencia alta, aunque el proceso sea estable 
y este bajo control. 

Aludimos a la suposicion de normalidad sobre las observaciones individuales en 
una grafica de control de variables. Para la grafica X, si las observaciones individua- 
les son normales, el estadistico X es normal. Como resultado, el analista de control 
de calidad en este caso tiene control sobre la probabilidad de un error tipo I. Si las 
X individuales no son normales, X es aproximadamente normal y por ello existe un 
control aproximado sobre la probabilidad de un error tipo I, para el caso en el que 
se conoce o. Sin embargo, el uso del metodo del rango para estimar la desviacion 
estandar tambien depende de la suposicion de normalidad. Estudios con respecto a 
la robustez de la grafica X para desviaciones de la normalidad indican que para las 
muestras de tamano k > 4, la grafica X tiene como resultado un riesgo a cercano 
al anunciado (vease el trabajo de Montgomery, 2000, y Schilling y Nelson, 1976, en 
la bibliograffa) . Indicamos antes que la aproximacion ± kon a la grafica R es una 
cuestion de conveniencia y tradition. Aun si la distribution de observaciones indi- 
viduales es normal, la distribution de R no es normal. De hecho, la distribution de 
R no es ni siquiera simetrica. Los lfmites de control simetricos ± koR solo dan una 
aproximacion al riesgo a y, en algunos casos, la aproximacion no es particularmente 
buena. 


Eleccion del tamano de la muestra (funcion caracterfstica de operacion) 
en el caso de la grafica X 

Los cientfficos e ingenieros que tratan con el control de calidad a menudo se refieren 
a los factores que afectan el diseno de la grafica de control. Los componentes que de- 
terminan el diseno de la grafica incluyen el tamano de la muestra que se toma en cada 
subgrupo, la amplitud de los lfmites de control y la frecuencia del muestreo. Todos 
estos factores dependen en gran medida de consideraciones economicas y practicas. 
La frecuencia de muestreo evidentemente depende del costo del muestreo y del costo 
que ocurre si el proceso continua fuera de control durante un periodo largo. Estos mis- 
mos factores afectan la amplitud de la region “bajo control” . El costo asociado con 
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la investigation y la busqueda de causas imputables tiene un impacto sobre la 
amplitud de la region y sobre la frecuencia de muestreo. Se dedica una cantidad 
considerable de atencion al diseno optimo de graficas de control y no se daran aquf 
detalles mas extensos. Se remite al lector al trabajo de Montgomery (2000), que se 
cita en la bibliografi'a para un excelente recuento historico de gran parte de esta 
investigation. 

La election del tamano muestral y la frecuencia de muestreo requiere equilibrar 
los recursos disponibles para estos dos esfuerzos. En muchos casos, el analista quiza 
necesite hacer cambios en la estrategia hasta que se logre el equilibrio adecuado. El 
analista siempre debe estar consciente de que si el costo de production de artfculos 
no adecuados es grande, una alta frecuencia de muestreo con tamano muestral rela- 
tivamente pequeno serfa una estrategia adecuada. 

Se deben tomar en cuenta muchos factores en la election de un tamano mues- 
tral. En la ilustracion y el analisis enfatizamos el uso de ?z = 4, 5 o 6. Estos valores 
se consideran relativamente pequenos para problemas generates en inferencia es- 
tadfstica, pero quiza tamanos muestrales apropiados para control de calidad. Una 
justification, por supuesto, es que el control de calidad es un proceso continuo y los 
resultados producidos por una muestra o un conjunto de unidades estaran seguidos 
por resultados de muchas mas. Asf, el tamano muestral “efectivo” de todo el esfuer- 
zo de control de calidad es muchas veces mayor que el que se utiliza en un subgrupo. 
Por lo general, se considera mas efectivo muestrear con frecuencia con un tamano 
muestral pequeno. 

El analista puede utilizar la notion de poder de una prueba para obtener alguna 
idea de la efectividad del tamano muestral que se elige. Esto es importante en par- 
ticular clebido a que los tamanos muestrales pequenos, por lo general, se utilizan en 
cada subgrupo. Vease los capftulos 10 y 13 para un analisis de la potencia de pruebas 
formates sobre medias y del analisis de varianza. Aunque las pruebas formates de hipo- 
tesis en realidad no se realizan en el control de calidad, se puede tratar la information 
muestral como si la estrategia en cada subgrupo fuera a probar una hipotesis, ya sea 
sobre la media poblacional p o sobre la desviacion estandar a. Es de interes la probabi- 
lidad de deteccion de una condition fuera de control para una muestra dada y, quiza 
mas importante, el numero esperado de corridas que se requieren para la deteccion. La 
probabilidad de deteccion de una condition fuera de control especffica corresponde 
al poder de una prueba. No es nuestra intention mostrar el desarrollo de la potencia 
para todos los tipos de graficas de control que aquf se presentan, sino mas bien mos- 
trar el desarrollo de la grafica X y presentar los resultados de potencia para la gra- 
fica R. 

Considere la grafica X para a conocida. Suponga que el estado bajo control tiene 
p = po- Un estudio del papel del tamano muestral del subgrupo es equivalente a 
investigar el riesgo /3, es decir, la probabilidad de que un valor X permanezca dentro 
de los lfmites de control dado que, en realidad, ocurre un corrimiento en la media. 
Suponga que la forma que toma el corrimiento es 

p = Po + ro. 

De nuevo, al utilizar la normalidad de X, tenemos 

/ 3 = P{lcl < X < ucl | p = po + ra}. 

Para el caso de lfmites ka, 


ko" kcr 

LCL = Po y UCL=^o + ^- 

yjn yjn 
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Como resultado, si denotamos con Z la variable aleatoria normal estandar 


Iz < 

po -1- ko/y/n - p 

X -pi 

l 

( 7 / y/n 

I 1 

^ z < 
\ z< 

po + ko/ y/n - (p + ro) ] 

1 

of y/n 


J 


Z < 


Po ~ ko/ y/n — p 


> p { 


Z < 


o/y/n 

Po - ko/y/n — (p + ro ) 


o y/n 


= P(Z < k — ryfn) — P(Z < — k — ry/n). 


Observe el papel de n, r y k en la expresion para el riesgo (3. La probabilidad de 
no detectar un corrimiento especifico con claridad aumenta con un aumento de k, 
como se esperaba. j3 disminuye con un aumento de r, la magnitud del corrimiento y 
disminuye con un aumento en el tamano muestral n. 

Se deberla enfatizar que la expresion anterior tiene como resultado el riesgo (3 
(probabilidad de un error tipo II) para el caso de una sola muestra. Por ejemplo, 
suponga que en el caso de una muestra de tamano 4, ocurre un corrimiento de o en 
la media. La probabilidad de detectar el corrimiento (poder) en la primera muestra 
a continuacion del corrimiento es (suponga lfmites 3 o): 

1 - /3 = 1 - [P(Z < 1) - P{Z < -5)] = 0.1587. 

Por otro lado, la probabilidad de detectar un corrimiento de 2 o es 
l- j3=l- [ P(Z < -1) - P(Z < -7)] = 0.8413. 

Los resultados anteriores ilustran una probabilidad bastante modesta de detectar un 
corrimiento de magnitud <7 y una probabilidad bastante alta de detectar un corri- 
miento de magnitud 2o\ La presentation completa de como se comportan los limites 
de control, digamos, 3 <7 para la grafica X que aqui se describe se muestra en la figura 
17.5. En vez de graficar el poder, se da una grafica de [3 contra r, donde el corrimien- 
to en la media tiene magnitud ro. Por supuesto, los tamanos muestrales de n = 4, 
5, 6 tienen como resultado una probabilidad pequena de detectar un corrimiento de 
l.Ocr o incluso 1.5(7 sobre la primera muestra despues del corrimiento. 

Pero si el muestreo se realiza con frecuencia, la probabilidad quiza no sea tan 
importante como el nurnero promedio o esperado de corridas que se requiere antes 
de la detection del corrimiento. Una detection rapida es importante y en realidad es 
posible, aunque la probabilidad de detection sobre la primera muestra no sea alta. 
Resulta que las graficas X con estas pequenas muestras tendra como resultado una 
detection relativamente rapida. Si j3 es la probabilidad de no detectar un corrimien- 
to sobre la primera muestra que sigue al corrimiento, entonces la probabilidad de 
detectar el corrimiento sobre la muestra s-esima despues de este es (si suponemos 
muestras independientes): 


P s = (l-(3)(3 s -\ 

El lector clebe reconocer esta como una aplicacion de la distribution geometrica. El 
valor promedio o esperado del nurnero de muestras que se requieren para la detec- 
tion es 


OO 

Y / sf3 s ~ 1 (l-f3) = 


1-/3' 
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Figura 17.5: Curvas caracteri'sticas de operation para la grafica X con lnnites 3cr. 
Aqui', (3 es el error de probabilidad tipo II sobre la primera muestra, despues de un 
corrimiento en la media de ra. 


Asf el numero esperado de muestras que se requieren para detectar el corrimiento 
en la media es el reciproco del poder (es clecir, la probabilidad de detection de la 
primera muestra despues del corrimiento) . 


Ejemplo 17.1:1 Para el analista de control de calidad en cierto esfuerzo de control de calidad es 
importante detectar con rapidez corrimientos en la media de ± a mientras se utiliza 
una grafica de control 3er con un tamano muestral n = 4. El numero esperado de 
muestras que se requieren despues del corrimiento para la detection del estado fuera 
de control puede ser una ayuda en la evaluation del procedimiento de control de 
calidad. 

De la figura 17.5, para n = 4 y r = 1, se puede ver que (3 « 0.84. Si denotamos 
con s el numero de muestras que se requieren para detectar el corrimiento, la media 
de s es 


E(s) 


1 

1^3 


0.16 


= 6.25. 


De esta manera, en promedio, se requieren seis subgrupos antes de la detection de 
un corrimiento de ± 0 . 


Eleccion del tamano muestral para la grafica R 

La curva CO de la grafica R se muestra en la figura 17.6. Como la grafica R se uti- 
liza para control de la desviacion estandar del proceso, el riesgo (3 se grafica como 
funcion de la desviacion estandar bajo control, ctq, y la desviacion estandar despues 
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de que el proceso queda fuera de control. La ultima desviacion estandar se denotara 
con <j\. Sea 

A = — . 

0b 

Se grafica ff contra A para varios tamanos muestrales. 


1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 



Figura 17.6: Curva caracterfstica operativa para las graficas R con lfmites de 3cr. 

Graficas X y S para variables 

Es natural para el estudiante de estadfstica anticipar el uso de la varianza muestral 
en la grafica X y en una grafica para control de la variabilidad. El rango es eficiente 
como estimador para cr, pero esta eficiencia disminuye conforme el tamano de la 
muestra se hace mas grande. Para n tan grande como 10, se clebe utilizar la esta- 
dfstica familiar 



en la grafica de control, tanto para la media como para la variabilidad. El lector 
debe recordar del capftulo 9 que X 1 es un estimador insesgado para cr 2 pero que S no 
es insesgado para cr. Es una costumbre corregir S para sesgos en aplicaciones de la 
grafica de control. Sabemos, en general, que 

E(S) ± o. 

En el caso en que las X, sean independientes, y esten distribuidas de forma normal 
con media p y varianza cr , 

E(S) = c t a, donde c, = (^3) r[( ^ / j ! ) ) /2] 
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y r(-) se refiere a la funcion gamma (vease el capitulo 6). Por ejemplo, para n = 50, 
c 4 = 3/8 v^tF- Ademas, la varianza del estimador S es 

Var(S) = cr 2 (l — c|). 

Establecimos las propiedades de S que nos permitiran escribir lfmites de control 
para X y S. Para construir una estructura adecuada, comenzamos con la suposicion 
de que se conoce cr. Despues presentamos la estimacion de cr a partir de un conjunto de 
muestras preliminar. 

Si se grafica el estadlstico S, los parametros evidentes de la grafica de control son 

ucl = c 4 cr + 3 o\j 1 — c|, lfnea central = c 4 <r, lcl = c 4 cr — 3<j\Jl — c 2 . 

Como de costumbre, los lfmites de control se definen de manera mas sucinta a traves 
del uso de constantes tabuladas. Sean 

B 5 =c 4 - 3^/l — c\, B 6 = c 4 + 3\Jl - cl, 


entonces, tenemos 


ucl = Be<J, lfnea central = C40-, lcl = B 50 . 

En la tabla A. 23 se tabulan los valores de B$ y Be para varios tamanos muestrales. 

Ahora, por supuesto, los lfmites de control anteriores sirven como base para el 
desarrollo de los parametros de control de calidad, para la situation que con mas 
frecuencia se observa en la practica, a saber, en la que se desconoce a. Debemos 
suponer una vez mas que se toma un conjunto de muestras base o muestras preli- 
minares para producir una estimacion de a durante lo que se supone como periodo 
“bajo control”. Las desviaciones estandar muestrales Sj, S 2 , ■ ■ ■ , S m se obtienen a 
partir de muestras que son cada una de tamano n. A menudo se utiliza un estimador 
insesgado del tipo 


S 


c 4 



/c 4 


para a. Aquf, por supuesto, S, el valor promedio de la desviacion estandar muestral 
en la muestra preliminar, es la lfnea central logica en la grafica de control para el con- 
trol de la variabilidad. Los lfmites de control superior e inferior son estimadores inses- 
gados de los lfmites de control adecuados para el caso donde se conoce cr. Como 



el estadfstico S es una lfnea central apropiada (como estimador insesgado de C417) y 
las cantidades 


,S_ 

c 4 


S — 3 — \/ 1 — c 4 y 


,S_ 

c 4 


S + 3-Jl-cl 


son los lfmites de control 3cr inferior y superior apropiados, respectivamente. Como re- 
sultado, la lfnea central y los lfmites para la grafica S para control de variabilidad son 

lcl = B 3 S, lfnea central = S, ucl = B 4 S , 
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donde 



Las constantes B 3 y B 4 aparecen en la tabla A. 23. 

Ahora podemos escribir los parametros de la grafica X correspondiente que im- 
plican el uso de la desviacion estandar muestral. Supongamos que S y X estan dispo- 
nibles de la muestra preliminar base. La lfnea central continua siendo X y los lfmites 
3 (7 son simplemente de la forma X ± 3d/y/n, donde <7 es un estimador insesgado. 
Simplemente proporcionamos S /C 4 como un estimador de cr, y de esta forma tenemos 

lgl = X — A 3 S, lfnea central = X. ucl = X + A 3 S, 


donde 



En la tabla A. 23 aparece la constante A 3 para varios tamanos muestrales. 


Ejemplo 17.2:1 Se producen contenedores mediante un proceso donde el volumen de los contenedo- 
res se sujeta a un control de calidad. Se utilizan 25 muestras de tamano 5, cada una 
para establecer los parametros de control de calidad. En la tabla 17.2 se documenta 
la information de estas muestras. 

De la tabla A. 23, B 3 = 0, B 4 = 2.089, A 3 = 1.427. Como resultado, los lfmites 
de control para X estan dados por 

X + A 3 S = 62.3771, X-A 3 S = 62.2740, 
y los lfmites de control para la grafica S son 

lcl = B 3 S = 0, ucl = B4S = 0.0754. 

Las figuras 17.7 y 17.8 muestran las graficas de control Xy S', respectivamente, para 
este ejemplo. En las graficas se representa la information para las 25 muestras en 
el conjunto de datos preliminar. Parece que el control se establece despues de las 
primeras muestras. 


17.5 Graficas de control para atributos 

Como indicamos antes en este capftulo, muchas aplicaciones industriales de control 
de calidad requieren que la caracterfstica de calidad indique solo la afirmacion de 
que el artfculo “se adapta”. En otras palabras, no hay la medicion continua que es 
crucial para el desempeno del artfculo. Una ilustracion evidente de este tipo de mues- 
treo, que se llama muestreo por atributos, es el desempeno de una bombilla de 
luz: que funciona o no de manera satisfactoria. El artfculo es defectuoso o no defec- 
tuoso. Las piezas metalicas fabricadas pueden tener deformaciones. Los contene- 
dores de una lfnea de production pueden tener fugas. En ambos casos, un artfculo 
defectuoso impide su uso por parte del consumidor. La grafica de control estandar para 
esta situation es la grafica p, o grafica para la fraccion de defectuosos. Como se po- 
drfa esperar, la distribution de probabilidad que interviene es la distribution bino- 
mial. Se remite al lector al capftulo 5 para information basica de la distribution 
binomial. 
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Tabla 17.2: Volumen de muestras de contenedores para 25 muestras en una muestra 
preliminar (en centimetres cubicos) 


Muestra 


Observaciones 


Xi 

S 

1 

62.255 

62.301 

62.289 

62.289 

62.311 

62.269 

0.0495 

2 

62.187 

62.225 

62.337 

62.297 

62.307 

62.271 

0.0622 

3 

62.421 

62.377 

62.257 

62.295 

62.222 

62.314 

0.0829 

4 

62.301 

62.315 

62.293 

62.317 

62.409 

62.327 

0.0469 

5 

62.400 

62.375 

62.295 

62.272 

62.372 

62.343 

0.0558 

6 

62.372 

62.275 

62.315 

62.372 

62.302 

62.327 

0.0434 

7 

62.297 

62.303 

62.337 

62.392 

62.344 

62.335 

0.0381 

8 

62.325 

62.362 

62.351 

62.371 

62.397 

62.361 

0.0264 

9 

62.327 

62.297 

62.318 

62.342 

62.318 

62.320 

0.0163 

10 

62.297 

62.325 

62.303 

62.307 

62.333 

62.313 

0.0153 

11 

62.315 

62.366 

62.308 

62.318 

62.319 

62.325 

0.0232 

12 

62.297 

62.322 

62.344 

62.342 

62.313 

62.324 

0.0198 

13 

62.375 

62.287 

62.362 

62.319 

62.382 

62.345 

0.0406 

14 

62.317 

62.321 

62.297 

62.372 

62.319 

62.325 

0.0279 

15 

62.299 

62.307 

62.383 

62.341 

62.394 

62.345 

0.0431 

16 

62.308 

62.319 

62.344 

62.319 

62.378 

62.334 

0.0281 

17 

62.319 

62.357 

62.277 

62.315 

62.295 

62.313 

0.0300 

18 

62.333 

62.362 

62.292 

62.327 

62.314 

62.326 

0.0257 

19 

62.313 

62.387 

62.315 

62.318 

62.341 

62.335 

0.0313 

20 

62.375 

62.321 

62.354 

62.342 

62.375 

62.353 

0.0230 

21 

62.399 

62.308 

62.292 

62.372 

62.299 

62.334 

0.0483 

22 

62.309 

62.403 

62.318 

62.295 

62.317 

62.328 

0.0427 

23 

62.293 

62.293 

62.342 

62.315 

62.349 

62.318 

0.0264 

24 

62.388 

62.308 

62.315 

62.392 

62.303 

62.341 

0.0448 

25 

62.328 

62.318 

62.317 

62.295 

62.319 

62.314 

0.0111 







X = i 

62.3256 







s = 

0.0361 



0 10 20 30 

Numero de muestra 



Figura 17.7: Grafica X con lfmites de control esta- Figura 17.8: Grafica S con lfmites de control esta- 
blecidos por los datos del ejemplo 17.2. blecidos por los datos del ejemplo 17.2. 
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Grafica p para la fraccion de defectuosos 

Cualquier artfculo fabricado puede tener varias caracterfsticas que son importantes 
y lo debe examinar un inspector. Sin embargo, todo el desarrollo se enfoca aqui a 
una sola caracteristica. Suponga que para todos los artfculos la probabilidad de un 
defectuoso es p, y que todos los articulos se producen de forma independiente. En- 
tonces, en una muestra aleatoria de n artfculos producidos, con X como el numero 
de artfculos defectuosos, tenemos 

P(X = x)= Qp*(l - p ) n ~ x , x = 0,1,2, ... ,n. 

Como se podrfa sospechar, la media y varianza de la variable aleatoria binomial ju- 
garan un papel importante en el desarrollo de la grafica de control. El lector deberfa 
recordar que 


E(X) = np y Var(X) = np(l — p). 


Un estimador insesgado de p es la fraccion de defectuosos o la proporcion de 
defectuosos, p , donde 

numero de defectuosos en la muestra de tamaiio n 


Como en el caso de las graficas de control de variables, las propiedades de distribu- 
tion de p son importantes en el desarrollo de la grafica de control. Sabemos que 


E(p) = p, V ar{p) = — — — 


Aquf aplicamos los mismos principios 3tr que utilizamos para las graficas de va- 
riables. Supongamos inicialmente que se conoce p. La estructura, entonces, de las 
graficas de control implica el uso de lfmites 3cr con 


P { 1 ~P) 
n 


De esta manera, los lfmites son 
lcl = p — 3 


p(l -p) 


UCL = p + 3 


p { 1 -p) 


n 


con el proceso considerado bajo control cuando los valores p de la muestra yacen 
dentro de los lfmites de control. 

En general, por supuesto, no se conoce el valor de p y se debe estimar a partir de 
un conjunto base de muestras de forma muy similar al caso de p y a en las graficas 
de variables. Suponga que hay m muestras preliminares de tamaho n. Para una 
muestra dada, cada una de las n observaciones se reporta como “defectuosa” o “no 
defectuosa” . El estimador insesgado evidente para p que se utiliza en la grafica de 
control es 



i = 1 
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donde p es la proportion de defectuosos en la i-esima muestra. Como resultado, los 
lfmites de control son 


LCL = p - 


3 /ffiZfi 
V n 


lfnea central = p, 


ucl = p + 


3 IEEE. 

V n 


Ejemplo 17.3:1 Considere los datos que se muestran en la tabla 17.3 sobre el numero de componen- 
tes electronicos defectuosos en muestras de tamano 50. Se tomaron 20 muestras con 
la finalidad de establecer valores preliminares de la grafica de control. Las graficas 
de control determinadas por este periodo preliminar tendran una lfnea central p = 
0.088 y lfmites de control 


lcl = p — 3 


P ( 1 ~P) 
50 


-0.0322, 


UCL = p + 3 


p { 1 -p) 
50 


0.2082. 


Tabla 17.3: Datos para el ejemplo 17.3 para establecer lfmites de control 
para graficas p, muestras de tamano 50 


Muestra 

Numero de compo- 
nentes defectuosos 

Fraccion de 
defectuosos pi 

1 

8 

0.16 

2 

6 

0.12 

3 

5 

0.10 

4 

7 

0.14 

5 

2 

0.04 

6 

5 

0.10 

7 

3 

0.06 

8 

8 

0.16 

9 

4 

0.08 

10 

4 

0.08 

11 

3 

0.06 

12 

1 

0.02 

13 

5 

0.10 

14 

4 

0.08 

15 

4 

0.08 

16 

2 

0.04 

17 

3 

0.06 

18 

5 

0.10 

19 

6 

0.12 

20 

3 

0.06 



p = 0.088 


Evidentemente, con un valor calculado negativo, el lcl se ajusta a cero. A par- 
tir de los valores de los lfmites de control se hace evidente que el proceso esta bajo 
control durante este periodo preliminar. 
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Seleccion del tamano muestral para la grafica p 

La election del tamano muestral para la grafica p para atributos incluye los mismos 
tipos generates de consideraciones que los de la grafica para variables. Se requiere un 
tamano muestral que sea suficientemente grande para tener una probabilidad alta 
de detection de una condition fuera de control cuando, de hecho, ocurre un cambio 
especifico en p. No hay un mejor metodo para la election del tamano de la muestra. 
Sin embargo, una aproximacion razonable, sugerida por Duncan (vease la bibliogra- 
ffa), consiste en elegir n de modo que haya una probabilidad de 0.5 de detectar un 
corrimiento de un monto particular en p. La solution que resulta para n es bastante 
simple. Suponga que se aplica la aproximacion normal a la distribution binomial. 
Deseamos, bajo la condition de que p tiene un corrimiento a, digamos, pi > po, que 


P(p > ucl) = P 


Z > 


UCL — pi 
y/pi(l-pi)/n 


= 0.5. 


Como P(Z > 0) = 0.5, hacemos 


ucl — pi 

VpiU- ~Pi)/n 


A1 sustituir, 


p + 3 


P( 1 ~P) 


UCL, 


tenemos 


(p-n) + 3 JXl-P> = o. 

V n 

Ahora podemos clespejar n, el tamano de cada muestra: 

9 

n = ~P)> 

donde, por supuesto, A es el “corrimiento” en el valor de p, y p es la probabilidad de 
un defectuoso sobre la que se basan los lfmites de control. Sin embargo, si las graficas 
de control se basan en lfmites ko entonces 

k 2 

n = 


Ejemplo 17.4:1 Suponga que se disena una grafica de control de calidad de atributos con un valor de 
p = 0.01 para la probabilidad bajo control de un defectuoso. i,Cual es el tamano de la 
muestra por subgrupo que produce una probabilidad de 0.5 de que se cletecte un 
proceso que se corre a p = pi = 0.05? La grafica p resultante incluira lfmites 3o\ 
Solucion: Aquf tenemos A = 0.04. El tamano adecuado de la muestra es 

n = ^w (0 - 01)(0 - 99) ^ 55 - 68 ^ 56 - 


J 
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Graficas de control para defectuosos (uso del modelo de Poisson) 

En el desarrollo anterior supusimos que el articulo bajo consideration es uno que es 
defectuoso (es decir, no funcional) o no defectuoso. En el ultimo caso es funcional 
y, por ello, aceptable para el consumidor. En muchas situaciones este enfoque de 
“defectuoso o no” es demasiado simplista. Las unidades pueden contener clefectos o 
no cumplir con la norma; pero aun asi funcionar bastante bien para el consumidor. En 
realidad, en este caso, seria importante ejercer control sobre el numero de defectos o 
numero de diferencias. Este tipo de esfuerzo de control de calidad encuentra aplica- 
cion cuando las unidades son no simplistas o quiza grandes. Por ejemplo, el numero 
de defectos puede ser bastante util como el objeto de control cuando el articulo o uni- 
dad es, digamos, una computadora personal. Otro ejemplo es una unidad definida por 
50 pies de tuberia fabricada, donde el numero de soldaduras defectuosas es el objeto 
del control de calidad, el numero de defectos de 50 pies de tejido para alfombras fabri- 
cado o el numero de “burbujas” en una hoja grande de vidrio fabricado. 

Es claro a partir de lo que clescribimos aqui, que la distribution binomial no es 
apropiada. El numero total de diferencias en una unidad o el numero promedio por 
unidad se puede usar como la medida para la grafica de control. Bastante a menudo 
se supone que el numero de diferencias en una muestra de articulos sigue la distri- 
bution de Poisson. Este tipo de grafica con frecuencia se llama grafica C. 

Suponga que el numero de defectos X en una unidad de producto sigue la distri- 
bution de Poisson con parametro A. (Aqui t = 1 para el modelo de Poisson.) Recuer- 
de que para la distribution de Poisson, 

e~ x \ x 

P(X = x)= — , * = 0,1,2,.... 

x\ 

Aqui, la variable aleatoria X es el numero de diferencias. En el capitulo 5 vimos 
que la media y la varianza de la variable aleatoria de Poisson son ambas A. De esta 
forma, si la grafica de control de calidad se estructurara de acuerdo con los limites 
3 <r acostumbrados, tendriamos, para A conocida, 

UCL = A + 3\/A, linea central = A, lcl = A — 3\/A. 

Como de costumbre, A a menudo debe provenir de un estimador de los datos. Una esti- 
mation insesgada de A es el numero promedio de diferencias por muestra. Denote esta 
estimation con A. Asi la grafica de control tiene los limites 

ucl = A + 3V% linea central = A, lcl = A — 3\/X. 


Ejemplo 17.5:1 La tabla 17.4 representa el numero de defectos en 20 muestras sucesivas de rollos de 
hoja metalica, cada una de 100 pies de longitud. Se debe desarrollar una grafica de con- 
trol a partir de estos datos preliminares con la finalidad de controlar el numero de 
defectos en tales muestras. La estimation del parametro de Poisson A esta clada por 
A = 5.95. Como resultado, los limites de control sugeridos por estos datos prelimi- 
nares son: 


ucl = A + 3a/A = 13.2678 y lcl = A - 3\/X = -1.3678, 


con lcl igualada a cero. 
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Tabla 17.4: Datos para el ejemplo 17.5; el control incluye el numero de clefectos en un rollo de 
hoja metalica 


Numero de muestra 

Numero de defectos 

Numero de muestra 

Numero de defectos 

1 

8 

11 

3 

2 

7 

12 

7 

3 

5 

13 

5 

4 

4 

14 

9 

5 

4 

15 

7 

6 

7 

16 

7 

7 

6 

17 

8 

8 

4 

18 

6 

9 

5 

19 

7 

10 

6 

20 

4 

Promedio 5.95 


Tabla 17.5: Datos adicionales del proceso de produccion del ejemplo 17.5 


Numero de muestra Numero de defectos Numero de muestra Numero de defectos 



La figura 17.9 muestra una grafica de los datos preliminares con los lfmites de 
control. 

La tabla 17.5 muestra datos adicionales tornados del proceso de produccion. Para 
cada muestra, se investiga la unidad en la que se basa la grafica; a saber, 100 pies del 
metal. Se revela la information de 20 muestras. La figura 17.10 muestra una grafica 
de los datos adicionales de produccion. Es claro que el proceso esta bajo control, al 
menos a lo largo del periodo en el que se toman los datos. 

En el ejemplo 17.5, dejamos muy claro que la unidad de muestreo o de inspection 
es, a saber, 100 pies de metal. En muchos casos donde el artfculo es especffico (por 
ejemplo, una computadora personal o un tipo especffico de dispositivo electronico) , 
la unidad de inspection puede ser un conjunto de articulos. Por ejemplo, el analista 
puede decidir utilizar 10 computadoras en cada subgrupo y de esta forma observar 
un conteo del numero total de defectos que se encuentran. De esta forma la muestra 
preliminar para la construction de la grafica de control incluirfa el uso de varias 
muestras, cada una de 10 computadoras. La election del tamano muestral puede 
depender de muchos factores. A menudo, se puede querer un tamano muestral que 
asegure un lcl positivo. 
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Muestra 



Figura 17.9: Datos preliminares representados en la 
grafica de control para el ejemplo 17.5. 


Figura 17.10: Datos adicionales de production para 
el ejemplo 17.5. 


El analista puede desear utilizar el numero promedio de defectos por unidad de 
muestreo como la medida basica en la grafica de control. Por ejemplo, para el caso 
de la computadora personal, sea la variable aleatoria el numero total de defectos 

numero total de defectos 
n 

que se mide para cada muestra de, digamos, n = 10. Se puede utilizar el metodo de 
las funciones generadoras de momento para demostrar que XJ es una variable alea- 
toria de Poisson (vease el ejercicio de repaso 17.1), si suponemos que el numero de 
defectos por unidad de muestreo es de Poisson con parametro A. De esta manera, la 
grafica de control para esta situation se caracteriza por lo siguiente: 

ucl = U + 3 \/ — , lfnea central = U , lcl =17 — 3 
V n 

Aquf, por supuesto, U es el promedio de los valores U en el conjunto de datos preli- 
minares o base. El termino U/n se deriva del resultado que 

E(U) = A, Var(U ) = -, 

n 

y por ello U es un estimador insesgado d e E(U) — A y U / n es un estimador insesgado 
de Var(U) — X/n. Este tipo de grafica de control a menudo se denomina grafica U. 

En todo el desarrollo de esta section basamos nuestra production de las grafi- 
cas de control en el modelo de probabilidad de Poisson. Este modelo se utiliza en 
combination con el concepto 3 a. Como explicamos antes en este capitulo, la notion 
de lfmites 3cr tiene sus rafces en la aproximacion normal, aunque muchos usuarios 
consideran que el concepto funciona bien como herramienta pragmatica, incluso si la 
normalidad no es siquiera aproximadamente correcta. La dificultad, por supuesto, es 
que en ausencia de normalidad, no se puede controlar la probabilidad de una especi- 
ficacion incorrecta de un estado fuera de control. En el caso del modelo de Poisson, 
cuando A es pequena la distribution es bastante asimetrica, condition que llega a 
producir resultados indeseables si se conserva la aproximacion 3o\ 
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17.6 Graficas de control de cusum 

La desventaja con las graficas de control tipo Shewhart, que se desarrollan e ilustran 
en las secciones anteriores, radica en su incapacidad para detectar pequenos cambios en 
la media. Un mecanismo de control de calidad que recibe una considerable atencion 
en la literatura estadistica y amplio uso en la industria es la grafica de suma acumu- 
lada (cusum) . El metodo para la grafica de suma acumulada es sencillo y su atrac- 
tivo es que es intuitivo. Debe ser evidente para el lector por que responde mejor a 
pequenos cambios en la media. Considere una grafica de control para la media con 
un nivel de referenda establecido en el valor W. Considere las observaciones particu- 
lares X\, X 2 , ■ ■ • , X r . Las primeras r sumas acumuladas son 

Si=Xi-W 

5 2 = Si + (X 2 - W) 

5 3 = S 2 + (X 3 - W) 

Sr = Sr - 1 + (X r ~ W). 

Es claro que la suma acumulada es simplemente la acumulacion de las diferencias 
del nivel de referencia. Es decir, 

k 

S k = J2( x i~ W), k = 1,2,... 

i—1 

La grafica de suma acumulada es, entonces, una grafica de Sfc contra el tiempo. 

Suponga que consideramos que el nivel de referencia w es un valor aceptable 
de la media p. Claramente, si no hay corrimiento en p, la grafica de suma acumu- 
lada deberia ser aproximadamente horizontal, con algunas fluctuaciones menores 
balanceadas alrededor de cero. Ahora, si solo hay un cambio moderado en la media, 
debe resultar un cambio relativamente grande en la pendiente de la grafica de suma 
acumulada, pues cada nueva observation tiene una oportunidad de contribuir con 
un corrimiento y la medida que se grafica se acumula a estos corrimientos. Por su- 
puesto, la senal de que la media esta recorrida yace en la naturaleza de la pendiente 
de la grafica de suma acumulada. El proposito de la grafica es detectar cambios que 
se alejan del nivel de referencia. Una pendiente diferente de cero (en cualquier direc- 
tion) representa un cambio a partir del nivel de referencia. Una pendiente positiva 
indica un aumento en la media por arriba del nivel de referencia; en tanto que una 
pendiente negativa senala una disminucion. 

Las graficas de suma acumulada a menudo se disenan con un nivel de calidad 
aceptable clefinido (aql) y un nivel de calidad rechazable (rql) prestablecido por el 
usuario. Ambos representan valores de la media. Estos se pueden ver como si juga- 
ran papeles similares a los de las medias nula y alternativa en la prueba de hipotesis. 
Considere una situation donde el analista desea detectar un aumento en el valor de 
la media del proceso. Usaremos la notation po para aql y pi para rql y sea pi > pq. 
El nivel de referencia se fija ahora en 

MO +JM1 
2 

Los valores de S r (r = 1, 2, . . . ) tendran una pendiente negativa si la media del pro- 
ceso esta en po y una pendiente positiva si la media del proceso esta en /ij . 
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Regia de decision para las graficas cusum 

Como indicamos antes, la pendiente de la grafica de suma acumulada proporciona la 
senal de accion para el analista de control de calidad. La regia de decision requiere 
la accion si, en el r-esimo periodo de muestreo, 

d r > h , 

donde h es un valor prestablecido que se llama longitud del intervalo de deci- 
sion y 


d r = S r — min Sj. 

l<i<r-l 

En otras palabras, se toma la accion si los datos revelan que el valor de la suma acumu- 
lada real excede en una cantidad especifica al valor previo de la suma acumulada 
mas pequena. 

Una modificacion en la mecanica que se describio antes permite la facilidad en el 
empleo del metodo. Describimos un procedimiento que grafica las sumas acumuladas 
y calcula las diferencias. Una modificacion simple implica graficar las diferencias de 
manera directa y permitir la verification contra el intervalo de decision. La expresion 
general para d r es bastante simple. Para el procedimiento de la suma acumulada, 
donde se detectan aumentos en la media, 

d r = max[0, d r - \ + (X r — W)\. 

La eleccion del valor de h es, por supuesto, muy importante. En este libro ele- 
gimos no proporcionar los detalles que aparecen en la literatura que trata de esta 
eleccion. Se remite al lector a Ewan y Kemp, 1960 (vease la bibliograffa) , para una 
exposition mas completa. Una consideration importante es la longitud esperada 
de la corrida. Idealmente, la longitud esperada de la corrida es bastante grande 
bajo p = pay bastante pequena cuando p = 


Ejercicios de repaso 


17.1 Considere Xi, X 2 , . . . , X n , variables aleatorias de 
Poisson independientes con parametros p 1 , P 2 , . . . , p n . 
Utilice las propiedades de las funciones generadoras de 

n 

momento para mostrar que la variable aleatoria ^ Xi 

i= 1 
n 

es una variable aleatoria de Poisson con media ^ fii 

i= 1 
n 

y varianza pi. 

i= 1 

17.2 Considere los siguientes datos tornados en subgru- 
pos de tamaiio 5. Los datos contienen 20 promedios, y 
rangos del diametro (en milunetros) de una parte cqm- 
ponente importante de un motor. Elabore graficas X y 
R. ^,E1 proceso parece estar bajo control? 

Muestra X R 

1 2.3972 0.0052 

2 2.4191 0.0117 

3 2.4215 0.0062 


Muestra 

X 

R 

4 

2.3917 

0.0089 

5 

2.4151 

0.0095 

6 

2.4027 

0.0101 

7 

2.3921 

0.0091 

8 

2.4171 

0.0059 

9 

2.3951 

0.0068 

10 

2.4215 

0.0048 

11 

2.3887 

0.0082 

12 

2.4107 

0.0032 

13 

2.4009 

0.0077 

14 

2.3992 

0.0107 

15 

2.3889 

0.0025 

16 

2.4107 

0.0138 

17 

2.4109 

0.0037 

18 

2.3944 

0.0052 

19 

2.3951 

0.0038 

20 

2.4015 

0.0017 
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17.3 Suponga para el ejercicio de repaso 17.2 que el 
comprador fija especificaciones para la parte. Las especi- 
ficaciones requieren que el diametro caiga en el rango cu- 
bierto por 2.40000 ± 0.0100 mm. ^Que proporcion de 
unidades producidas por este proceso no cumpliran con 
las especificaciones? 

17.4 Para la situacion del ejercicio de repaso 17.2, 
proporcione estimaciones numericas de la media y de 
la desviacion estandar del diametro para la parte que 
se fabrica en el proceso. 

17.5 Considere los datos de la tabla 17.1. Suponga 
que se toman muestras adicionales de tamano 5 y se 
registra la resistencia de rotura. El muestreo produce 
los siguientes resultados (en libras por pulgada cua- 
drada) . 

Muestra X R 

1 1511 22~ 

2 1508 14 

3 1522 11 

4 1488 18 

5 1519 6 

6 1524 11 

7 1519 8 

8 1504 7 

9 1500 8 

10 1519 14 

a) Grafique los datos, utilice las graficas X y R para los 
datos preliminares de la tabla 17.1. 

b) ^E1 proceso parece estar bajo control? Si no, expli- 
que por que. 

17.6 Considere un proceso bajo control con media 
p = 25 y cr = 1.0. Suponga que se usan subgrupos de 
tamano 5 con liinites de control, p ± 3cr/y/n, y lfnea 
central en p. Suponga que ocurre un corrimiento en la 
media, y por ello la nueva media es p = 26.5. 

a) ^Cual es el mimero promedio de muestras que se 
requiere (despues del corrimiento) para detectar la 
situacion fuera de control? 

b) ^Cual es la desviacion estandar del mimero de corri- 
das que se requiere? 

17.7 Considere la situacion del ejemplo 17.2. Se to- 
man los siguientes datos de muestras adicionales de 
tamano 5. Grafique los valores X y S sobre la grafica 
X y S que producer! los datos en la muestra preliminar. 
^El proceso parece estar bajo control? ^Por que? 

Muestra X Si 

1 62.280 0.062 

2 62.319 0.049 

3 62.297 0.077 

4 62.318 0.042 


Muestra 

X 

Si 

5 

62.315 

0.038 

6 

62.389 

0.052 

7 

62.401 

0.059 

8 

62.315 

0.042 

9 

62.298 

0.036 

10 

62.337 

0.068 


17.8 Se toman muestras de tamano 50 cada hora 
de un proceso que produce cierto tipo de artfculo que 
se considera defectuoso o no defectuoso. Se toman 20 
muestras. 


Muestra 

Numero de 
artfculos 
defectuosos 

Muestra 

Numero de 
artfculos 
defectuosos 

1 

4 

11 

2 

2 

3 

12 

4 

3 

5 

13 

1 

4 

3 

14 

2 

5 

2 

15 

3 

6 

2 

16 

1 

7 

2 

17 

1 

8 

1 

18 

2 

9 

4 

19 

3 

10 

3 

20 

1 


a) Construya una grafica de control para controlar la 
proporcion de defectuosos. 

b) ^E1 proceso parece estar bajo control? Explique. 

17.9 Para la situacion del ejercicio de repaso 17.8, su- 
ponga que se colectan datos adicionales como se mues- 
tra a continuation: 

Muestra Numero de artfculos defectuosos 


1 3 

2 4 

3 2 

4 2 

5 3 

6 1 

7 3 

8 5 

9 7 

10 7 


^El proceso parece estar bajo control? Explique. 

17.10 Se intenta un esfuerzo de control de calidad 
para un proceso, donde se fabrican grandes placas de 
acero e interesan los defectos superficiales. El objetivo 
es establecer una grafica de control de calidad para el 
numero de defectos por placa. Los datos se indican en 
la siguiente pagina. Establezca la grafica de control 
apropiada; utlice esta information muestral. ^,E1 proce- 
so parece estar bajo control? 
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Numero de 


Numero de 


Numero de 


Numero de 

Grafica 

articulos 

Grafica 

articulos 

Grafica 

articulos 

Grafica 

articulos 

muestral 

defectuosos 

muestral 

defectuosos 

muestral 

defectuosos 

muestral 

defectuosos 

1 

4 

11 

1 

6 

4 

16 

4 

2 

2 

12 

2 

7 

5 

17 

3 

3 

1 

13 

2 

8 

3 

18 

2 

4 

3 

14 

3 

9 

2 

19 

1 

5 

0 

15 

1 

10 

2 

20 

3 


Capftulo 18 

Estadfstica bayesiana (opcional) 


18.1 Conceptos bayesianos 

Los metodos clasicos de estimacion que hemos estudiado hasta ahora se basan uni- 
camente en information que brinda la muestra aleatoria. Estos metodos interpretan 
esencialmente probabilidades como frecuencias relativas. Por ejemplo, para obtener 
un intervalo de confianza de 95% para /x, interpretamos el planteamiento 

P(— 1.96 < Z < 1.96) = 0.95 

como que 95% de las veces en experimentos repetidos Z caera entre —1.96 y 1.96. 
Como 

7 X - » 
a /y/n 

para una muestra normal con varianza conocida, el enunciado de probabilidad aquf 
significa que 95% de los intervalos aleatorios (X — 1.96o-/Vn, X + 1.96a/y/n) contie- 
nen la media /x verdadera. Otro enfoque para los metodos estadisticos de estimacion 
se denomina metodologfa bayesiana. La princial idea del metodo proviene de la regia 
de Bayes que examinamos en la section 2.8. La diferencia fundamental entre los enfo- 
ques bayesiano y clasico (es decir, el que hemos estudiado en este libro hasta aquf) es que 
en los conceptos bayesianos, los parametros se consideran variables aleatorias. 

Probabilidad subjet iva 

La probabilidad subjetiva es el fundamento de los conceptos bayesianos. En el capf- 
tulo 2 analizamos clos enfoques posibles de la probabilidad; a saber, la indiferencia 
y la frecuencia relativa. El primero decide una probabilidad como consecuencia de 
experimentos repetidos. Por ejemplo, para decidir el porcentaje de tiros libres de un 
jugador de baloncesto, podemos registrar el numero de tiros que hace y el numero 
total de intentos que tal jugador tiene hasta el momento. La probabilidad de acertar 
un tiro libre para este jugador puede calcularse como el cociente de estos dos nume- 
ros. Por otro lado, si no sabemos acerca del posible sesgo de un dado, la probabilidad 
de que un 3 aparezca en el siguiente lanzamiento sera de 1/6. Dicho enfoque en la 
interpretation de la probabilidad se basa en la regia de la indiferencia. 
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Sin embargo, en muchas situaciones, no es posible aplicar las interpret aciones de 
probabilidad anteriores. Por ejemplo, considere las siguientes preguntas: “iCual es 
la probabilidad de que llueva manana?” “iQue tan probable es que este inventario 
aumente a fin de mes?” Y ^cual es la probabilidad de que dos compamas se fusionen?” 
Estas preguntas diffcilmente podrfan interpretarse mediante los enfoques anteriores, 
y las respuestas podrfan ser diferentes para distintas personas. No obstante, este 
tipo de preguntas se plantean constantemente en la vida diaria y el enfoque utiliza- 
do para explicar esas probabilidades se llama probabilidad subjetiva, ya que refleja 
opiniones subjetivas. 


Perspectiva condicional 

Recuerde que en los capftulos 9 a 17, todas las inferencias estadfsticas estuvieron 
basadas en el hecho de que los parametros se desconocfan, pero eran cantidades fijas, 
a exception de en la section 9.14, donde los parametros se trataron como variables y 
las estimaciones de probabilidad maxima se calcularon usando el condicionamiento 
en los datos. En la estadistica bayesiana, los parametros se consideran aleatorios y 
desconocidos para el investigador. 

Puesto que los datos observados son los unicos resultados experimentales para el 
practicante, la inferencia estadistica se basa en los datos reales observados a partir 
de un experimento dado. Tal vision se llama perspectiva condicional. Mas aun, en 
los conceptos bayesianos, en tanto que el parametro se considera como aleatorio, 
es factible especificar una distribucion de probabilidad generalmente utilizando la 
probabilidad subjetiva para el parametro. Tal distribucion se denomina distribucion 
a priori y comunmente refleja la creencia previa del experiment ador acerca del pa- 
rametro. En la perspectiva bayesiana, una vez que se realiza un experimento y se 
observan los datos, todo el conocimiento acerca de un parametro esta contenido en 
los datos reales observados, asf como en la information previa. 


Aplicaciones bayesianas 

Aunque la regia de Bayes se atribuye a Thomas Bayes, en realidad fue el cientffico 
frances Pierre Simon Laplace quien introdujo primero las aplicaciones bayesianas. 
Laplace publico un artfculo sobre el uso de la inferencia bayesiana en los parame- 
tros binomiales desconocidos. Sin embargo, a causa de su complicado enfoque de 
modelamiento y las objeciones de muchos en torno al uso de la distribucion a priori 
subjetiva , los investigadores y cientfficos no aceptaron ampliamente las aplicaciones 
bayesianas, sino hasta principios de la clecada de 1990, cuando se lograron avances en 
los metodos computacionales bayesianos. Desde entonces, los metodos bayesianos 
se han aplicado con exito en muchos campos, como la ingenierfa, la agricultura, la 
ciencia biomedica y la ecologfa, entre otros. 


18.2 Inferencias bayesianas 

Considere el problema de encontrar una estimation puntual del parametro 6 para 
la poblacion con distribucion f(x\9), dado 9. Denote con tt(9) la distribucion previa 
de 9. Suponga que se observa la muestra aleatoria de tamano n, denotada con x = 
(xi, x 2 ,..., x n ). 



18.2 Inferencias bayesianas 


727 


Definition 18.1: 


Ejemplo 18.1: 


Solucion: 


La distribution de 0, dado el dato de x, que se denomina distribution a posteriori, 
esta dada por 


n(9\x) 


f(x\d)TT(9) 

g(x) 


donde g{ x) es la distribucion marginal de x. 


La distribucion marginal de x puede calcularse como 


f Y2 f( x l^) 7r (^)i 0 es discreta, 

g(x) = < e 

fZ f(xj9)ir(9) d9, 9 es continua. 


Suponga que la distribucion previa para la proportion de artfculos defectuosos que 
produce una maquina es 


p 

0.1 

0.2 

■jr(p) 

0.6 

0.4 


Denote con x el mimero de defectuosos entre una muestra aleatoria de tamano 2. 
Encuentre la distribucion de probabilidad a posteriori de p, dado que se conoce x. 
La variable aleatoria X sigue una distribucion binomial 

f(x\p) = b(x;2,p) = Qj P x q 2 ~ x , x = 0,1,2. 

La distribucion marginal de x se puede calcular como 


9 ( x ) 


f(x\ 0.1)7r(0.1) + /(*| 0.2 )tt(0.2) 

[(0.1) :c (0.9) 2_:!: (0.6) + (0.2) x (0.8) 2_x (0.4)]. 


Por lo tanto, la probabilidad a posteriori de p = 0.1, dado x, es 


f(x | O.I)tt(O.I) (0.1) x (0.9) 2 - x (0.6) 

“ g{x) “ + (0.2) a: (0.8) 2_:r (0.4) ’ 


y 7T (0.2 1 x) = 1 — 7r(0.1| x ). 

Suponga que se conoce x = 0. 

in i mt - (0.1) o (0.9) 2 -°(0.6) _ 

( °' |0) (0.1)°(0.9) 2 - o (0.6) + (0.2) o (0.8) 2 -°(0.4) °' 655 °’ 

y tt( 0.2 | 0) = 0.3450. Si se conoce x = 1, tt( 0.1 1 1) = 0.4576 y tt( 0.2 1 1) = 0.5424. Por 
ultimo, 7r(0.1 1 2) = 0.2727 y tt(0.2|2) = 0.7273. 

La distribucion a priori del ejemplo 18.1 es discreta, aunque el rango natural de 
p es de 0 a 1. Considere el siguiente ejemplo donde tenemos una distribucion a priori 
que cubre el espacio completo de p. 
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Ejemplo 18.2:1 Suponga que la distribution a priori de p es uniforme (es decir, n(p) = 1, para 0 < 
p < 1). Use la misma variable aleatoria X como en el ejemplo 18.1, para encontrar 
la distribucion a posteriori de p. 

Solucion: Como en el ejemplo 18.1, tenemos 

/Ob) = b(x; 2 ,p) = (^jp x q 2 ~ x , x = 0, 1, 2. 

La distribucion marginal de x puede calcularse como 

g{x) = f(x\p)n(p) dp = J p x {l-p) 2 ~ x dp. 

La integral anterior puede evaluarse en cada x directamente como g(0) = 1/3, 5(1) 
= 1/3 y 5(2) = 1/3. Por lo tanto, la distribucion a posteriori de p, dada x, es 

*(p\x)= ^ pX ^ p)2 X = 3 Qp*(l-p) 2 -s, 0 < p < 1. 

Usando la distribucion a posteriori, podemos estimar directamente los parametros 
en una poblacion. 

Estimacion usando la distribucion a posteriori 

Una vez que se deriva la distribucion a posteriori, facilmente podemos usar el re- 
sumen de la distribucion a posteriori para realizar inferencias sobre los parametros 
de la poblacion. Por ejemplo, la media, la mediana y la moda a posteriori son utiles 
para estimar el parametro. 

Ejemplo 18.3:1 Suponga que x = 1 se observa en el ejemplo 18.2. Determine la media y la moda a 
posteriori. 

Solucion: Cuando x = 1, la distribucion a posteriori de p puede expresarse como 

7r(p|l) = 6p(l — p), para 0 < p < 1. 

Si deseamos calcular la media de esta distribucion, necesitamos encontrar 

1 6p 2 (i -p) = 6 (| - 1) =/ 

Para determinar la moda a posteriori, se requiere obtener el valor de p tal que se 
maximice la distribucion a posteriori. Tomando la derivada de n (p) con respecto a 
p, obtenemos 6 — 12 p. A1 despejar p de 0 = 6 — 12p, nos queda p = 1/2. La segunda 
derivada es —12, la cual implica que la moda a posteriori llegue a p = 1/2. 

Los metodos bayesianos de estimacion con respecto a la media p de una pobla- 
cion normal se basan en el siguiente ejemplo. 

Ejemplo 18.4:1 Si x es la media de una muestra aleatoria de tamano n tomada de una poblacion 
normal con varianza conocida cr 2 , y la distribucion a priori de la media poblacional 
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es una distribution normal con media conocida y varianza conocida <7 q, entonces 
la distribution a posteriori de la media poblacional es tambien una distribution nor- 
mal con media fi* y desviacion estandar cr*, donde 


M = 


Tq _ cr 2 /n 

-x H — — — tt ~ Mo 


ol + o- 2 /n ol + a 2 In 
Solucion: A1 multiplicar la densidad de nuestra muestra 

1 


I °l° 2 

na 2 + cr 2 


f{x i,x 2 , ■ ■ -,X n \fJ,) = 


(2n ) n / 2 cr n 


exp 


1 ” 


2=1 


Xj- fl 
G 


por -oo < < oo e z = 1 , 2 ,... , n por nuestra distribucion a priori 


7t(m) = 


\Z2ttcto 


exp 


1 / M - Mo 

2 V (T 0 


— oo < n < oo, 


obtenemos la densidad conjunta de la muestra aleatoria y la media de la poblacion 
a partir de la cual se selecciono la muestra. Es decir, 


f(x 1 ,x 2 ,...,x n ,[i) = 


1 


(2n)( n+i y 2 a n cro 


x exp < — - 


1 


E 

,i=i 


Xi- n 


+ 


M - Mo 
(To 


En la section 8.6 establecimos la identidad 


E( x * _ ( u ) 2 = £(** - x ) 2 + n ( a; - a*) 2 


2=1 


2=1 


que nos permite escribir 


f{x 1,X2, . .. ^2 7 r )(n+l)/2 


*a u a o 


■ exp 


n 


Xi — X 


X ex P 1 - 2 


2=1 

n(x-/j,) 2 (/i-/x 0 ) 21 


A1 completar los cuadrados del segundo exponente, escribimos la densidad conjunta 
de la muestra aleatoria y la media poblacional de la forma 


f(xi,x 2 ,...,x n ,n) = A' exp 


1 ( V - ^ 

2 


donde 


* _ nxcFg + fi 0 c t 2 
ncr 2 + a 2 


y 2^2 




ncTo + <t 2 ' 
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y K es una funcion de los valores muestrales y los parametros conocidos. Entonces, 
la distribution marginal de la muestra es 



= A'V^cr*, 





que se identifica como una distribucion normal con media p* y clesviacion estandar 
a*, donde p* y a* se definieron anteriormente. 

El teorema del lfmite central nos permite utilizar el ejemplo 18.4 tambien cuando 
seleccionamos muestras aleatorias ( n > 30 para muchos casos de experimentation en 
ingenieria), a partir de poblaciones no normales (la distribucion no esta muy alejada 
de la simetrica), y cuando la distribucion a priori de la media es aproximadamente 
normal. 

Resulta pertinente hacer algunos comentarios acerca del ejemplo 18.4. La media 
a posteriori p* tambien se puede escribir como 


p 2 

Co 


. o / P'O? 

+ cr z /n 


que es el promedio ponderado de la media muestral x y la media previa po. Como 
ambos coeficientes estan entre 0 y 1 y se suman a 1, la media a posteriori p * siempre 
esta entre x y po- Esto significa que la estimation a posteriori de la localization de p 
se ve influida tanto por x como por po- Mas ami, la ponderacion de x depende de 
la varianza previa, asi como de la varianza de la media muestral. Para un proble- 
ma con una muestra grande ( n — > oo), la media a posteriori p * — i x. Esto significa 
que la media a priori no desempena ninguna funcion en la estimacion de la media 
poblacional p utilizando la distribucion a posteriori. Esto es muy razonable puesto 
que indica que cuando una cantidad de datos es sustancial, la information a partir 
de los datos dominara la information de p que brinda la a priori. Por otro lado, 
cuando la varianza previa es grande (a q — ■> oo), la media a posteriori p* tambien 
va a x. Note que para una distribucion normal, cuanto mayor es la varianza, mas 
plana sera la funcion de clensidad. El caracter piano de la distribucion normal, en 
este caso, significa que casi no hay information previa subjetiva disponible para el 
parametro p. Por lo tanto, es razonable que la estimacion a posteriori p* solo de- 
penda del valor de x. 

Ahora considere la clesviacion estandar a posteriori a*. Este valor tambien se 
escribe como 



Es evidente que el valor cr* es menor que 00 y que <r / ,/n, la clesviacion estandar a 
proiri y la desviacion estandar de x , respectivamente. Esto sugiere que la estimacion 
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a posteriori es mas precisa que la a priori y que los clatos muestrales. De ahf que la 
incorporation tanto de los datos como de la informacion previa de como resultado 
una mejor informacion posterior que si se utiliza cualquiera de los datos o la infor- 
macion previa por si solos. Esto es un fenomeno comun en la inferencia bayesiana. 
Ademas, para calcular p* y < 7 * mediante las formulas del ejemplo 18.4, suponemos 
que se conoce <r 2 . Como, por lo general, este no es el caso, deberemos reemplazar a 2 
por la varianza de la muestra s 2 siempre que n > 30. 

Estimacion del intervalo bayesiano 

De manera similar al intervalo de confianza clasico, en el analisis bayesiano, po- 
demos calcular un intervalo bayesiano (1 — a) 100% empleando la distribution a 
posteriori. 


Definicion 18.2: 


El intervalo a < 9 < b se llamara un intervalo de Bayes (1 — a) 100% para 6 si 



Tt(0\x) dd 


tt(9\x) dd = — . 


Recuerde que segun el enfoque de la frecuencia, la probabilidad de un intervalo 
de confianza, digamos del 95%, se interpreta como una probabilidad de cobertura, lo 
cual significa que si un experimento se repite una y otra vez (con considerables datos 
no observados), la probabilidad de que los intervalos calculados, de acuerdo con la 
regia, cubran el parametro vercladero de 95%. Sin embargo, en la interpretation del 
intervalo bayesiano, por ejemplo para un intervalo de 95%, simplemente podemos 
decir que la probabilidad de que el parametro desconocido caiga dentro del intervalo 
calculado (que solo depende de los datos observados) es del 95%. 


Ejemplo 18.5:1 Suponga que X ~ b(x; n, p) con n = 2; la distribucion a priori de p es uniforme n(p) 
= 1, para 0 < p < 1. Encuentre el intervalo de Bayes de 95% para p. 

Solucion: Como en el ejemplo 18.2, cuando x = 0, la distribucion a posteriori es n(p 1 0) = 3 
(1 — p) 2 , para 0 < p < 1. Asf que necesitamos clespejar ay b utilizando la definicion 
18.2, lo que da como resultado lo siguiente: 

0.025 =/ 3(1 -p) 2 dp = 1 - (1 - a) 3 , 

Jo 

y 

0.025 =/ 3(1 -p) 2 dp = (1 - b) 3 . 

Jb 

Las soluciones a las ecuaciones de arriba arrojan como resultado a = 0.0084 y 
b = 0.7076. Por lo tanto, la probabilidad de que p caiga dentro de (0.0084, 0.7076) 
es de 95%. 

Para la (poblacion) normal y el caso normal (a priori) clescrito en el ejemplo 18.4, 
la media a posteriori p* es el estimado de Bayes de la media poblacional p, y puede 
construirse un intervalo bayesiano (1 — a) 100% calculando el intervalo 

p* - z a/2 (r* < p< p* + z a/2 a*, 

que se centra en la media a posteriori y contiene (1 — a) 100% de la probabilidad 
posterior. 
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Ejemplo 18.6:1 Una empresa cle equipo electrico fabrica bombillas de luz que tienen una duration 
que esta distribuida de forma aproximadamente normal con una desviacion estan- 
dar de 100 lroras. Experiencia anterior nos indica que p es un valor de una variable 
aleatoria normal con una media po = 800 horas y una desviacion estandar oo = 10 
horas. Si una muestra aleatoria de 25 bombillas tiene una duration promedio de 780 
horas, encuentre un intervalo bayesiano de 95% para p. 

Solucion: De acuerdo con el ejemplo 18.4, la distribution a posteriori de la media tambien es 
una distribution normal con media 


= ( 25 )( 780 )( 10) 2 + ( 800 )( 100) 2 

r 4 (nc\/in\5 i / inn\5 i JO, 


y desviacion estandar 


(25)(10) 2 + (100) 2 


(10) 2 (100) 2 


= v 7 ^). 


V (25)(10) 2 + (100)2 
El intervalo bayesiano de 95% para p esta dado entonces por 


796 - 1 . 96 V 80 < p < 796 + 1 . 96 ^ 80 , 


o 


778.5 <p< 813.5. 


De esta manera, estamos un 95% seguros de que p estara entre 778.5 y 813.5. 

Por otro lado, si se ignora la information previa acerca de p , procedemos como 
en la section 9.4 para construir el intervalo de confianza clasico de 95%. 


780 - (1.96) 



<p< 780+ (1.96) 



o 740.8 < p < 819.2, que se observa que es mas amplio que el intervalo bayesiano 
correspondiente . 


18.3 Estimacion bayesiana utilizando el contexto 
de la teorfa de decision 


Con la metodologia bayesiana, se puede obtener la distribution a posteriori del para- 
metro. La estimacion bayesiana tambien se deriva usando la distribution a posteriori 
cuando se incurre en una funcion de perdida. Por ejemplo, el estimador bayesiano 
mas comun utilizado esta bajo la funcion de perdida del error cuadratico, que 
es similar a la estimacion por minimos cuadrados que presentamos en el capitulo 11 
al estudiar el analisis de regresion. 


Definition 18.3: 


La media de la distribution a posteriori n(8 \ x ), denotada con 9*, se llama estima- 
tion de Bayes de 6, bajo la funcion de perdida del error cuadratico. 


Ejemplo 18.7:1 Encuentre la estimacion de Bayes de p para todos los valores de x, en el ejemplo 
18.1. 

Solucion: Cuando x = 0, p* = (0.1) (0.6550) + (0.2)(03450) = 0.1345. 

Cuando x = 1, p* = (0.1)(0.4576) + (0.2)(0.5424) = 0.1542. 
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Ejemplo 18.8:1 
Solucion: 


Ejemplo 18.9: 


Solucion: 


Cuando x = 2, p* = (0.1)(0.2727) + (0.2)(0.7273) = 0.1727. 

Note que la estimacion clasica de p es p = x/n = 0, 1/2 y 1, respectivamente, 
para los valores de x en 0, 1 y 2. Tales estimaciones clasicas son muy diferentes de 
las estimaciones de Bayes correspondientes. 


Repita el ejemplo 18.7 en la situation del ejemplo 18.2. 

Puesto que la distribution a posteriori de p se puede expresar como 

n(p\x)= Op X ^P? X =3 Q p x( 1 - p) 2-x ) 0 < p < 1, 

la estimacion de Bayes de p es 


p* = E(p\x ) = 3^f) ^ p x+1 { 1 -p) 2 x dp, 

la cual dap* = 1/4 para x = 0, p* = 1/2 para x = 1 y p* = 3/4 para x = 2, respecti- 
vamente. Entonces cuando se observa x = 1, la estimacion de Bayes y la estimacion 
clasica de 0 son equivalentes. 

Para la situation normal que se describe en el ejemplo 18.4, la estimacion de 
Bayes de p bajo la perdida del error cuadratico sera la media a posteriori p*. 


Suponga que la distribution muestral de una variable aleatoria X es de Poisson con 
parametro A. Suponga que la distribution a priori de A sigue una distribution gamma 
con parametros (a, 0). Encuentre la estimacion de Bayes de A bajo la funcion de 
perdida del error cuadratico. 

La funcion de clensidad de X es 


X x 

f(x |A) = e -A — , para a; = 0,1,..., 

y la distribution a priori de A es 


?r(A) 


1 

/3 a T(a) 


A «-i e -A//3, 


para A > 0. 


Por lo tanto, la distribution a posteriori de A se puede expresar como 


7r(A|x) 


x\(3 a r(a) 


lg— (1 + 1//3)A 


fo°° XXe lT^) X/ " dX io°° A x +a -r e -(i + V/ 3 )A dX 

1 X x+a-l ~{l+l//3)\ 

(1 + 1/ !3)-( x + a )T(x + a) 


la cual sigue otra distribution gamma con los parametros (x + a,(l + 1/0) 1 . Usando 
el teorema 6.3, obtenemos la media a posteriori 


| x + a 

= T+i/p- 
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Capitulo 18 Estadistica bayesiana (opcional) 


Como la media a posteriori es la estimation de Bayes bajo la perdida del error cua- 
dratico, A sera nuestra estimation de Bayes. 


Ej ercicios 

18.1 Estime la proporcion de defectuosos que produ- 
ce la maquina del ejemplo 18.1, si la muestra aleatoria 
de tamano 2 produce 2 defectuosos. 

18.2 Supongamos que la distribution a priori para la 
proporcion p de bebidas de una maquina despachadora 
que se derraman al servirse es 


p 

0.05 

0.10 

0.15 

7r(p) 

0.3 

0.5 

0.2 


Si 2 de las siguientes 9 bebidas de esta maquina se 
derraman, encuentre 

a) la distribution a posterior para la proporcion p; 

b) la estimation de Bayes de p. 

18.3 Rcpita el ejercicio 18.2 cuando 1 de las siguien- 
tes 4 bebidas se derrama y la distribution uniforme a 
priori es 

7r(p) = 10, 0.05 <p< 0.15. 

18.4 El constructor de un nuevo complejo de con- 
dominios afirma que 3 de 5 compradores preferira un 
departamento de dos recamaras; mientras que su ban- 
quero afirma que seri'a mas correcto decir que 7 de 10 
compradores preferiran uno de dos recamaras. En las 
predicciones a priori de este tipo, el banquero ha sido 
dos veces mas confiable que el constructor. Si 12 de los 
siguientes 15 condominios que se venden en este com- 
plejo son de dos recamaras, encuentre 

a) las probabilidades a posteriori que se asocian con las 
afirmaciones del constructor y del banquero; 

b) una estimation puntual de la proporcion de comprado- 
res que prefieren un departamento de dos recamaras. 

18.5 El tiempo en que se consume la primera etapa 
de un cohete es una variable aleatoria normal, con una 
desviacion estandar de 0.8 minutos. Suponga una dis- 
tribution a priori normal para p con una media de ocho 
minutos y una desviacion estandar de 0.2 minutos. Si 
se lanzan 10 de estos cohetes y la primera etapa tiene 
un tiempo de consumo promedio de 9 minutos, encuen- 
tre un intervalo bayesiano de 95% para p. 

18.6 La utilidad diaria de una maquina despacha- 
dora de jugos que se coloca en un edificio de oficinas es 
un valor de una variable aleatoria normal, con media p 
y varianza a 2 desconocidas. Desde luego, la media va- 
riara algo de un edificio a otro, y el distribuidor conside- 


ra que estas utilidades promedio diarias se pueden des- 
cribir mejor usando una distribution normal con media 
po = $30.00 y desviacion estandar op = $1.75. Si una 
de estas maquinas despachadoras de jugo, que se coloca en 
cierto edificio, muestra una utilidad promedio diaria 
de x = $24.90, durante los primeros 30 dfas con una 
desviacion estandar de s = $2.10, encuentre 

a) una estimation de Bayes de la utilidad promedio 
diaria real para este edificio; 

b) un intervalo bayesiano de 95% de p para este edifi- 
cio; 

c) la probabilidad de que la utilidad promedio diaria 
de la maquina en este edificio este entre $24.00 y 
$26.00. 

18.7 El departamento de matematicas de una univer- 
sidad grande disefia un examen de colocation para apli- 
carlo a los grupos de nuevo ingreso a primer ano. Los 
miembros del departamento consideran que la califica- 
cion promedio para este examen variara de un grupo 
de primer ano a otro. Esta variation de la calificacion 
promedio del grupo se expresa de manera subjetiva me- 
diante una distribution normal, con una media po = 72 
y varianza tr 2 = 5.76. 

a ) i,Que probabilidad a priori de que la calificacion 
promedio real, que asigna el departamento para los 
alumnos de nuevo ingreso del siguiente ano, caiga 
entre 71.8 y 73.4? 

b) Si el examen se aplica a una muestra aleatoria de 
100 estudiantes de primer grado del siguiente gru- 
po de nuevo ingreso que tiene como resultado una 
calificacion promedio de 70 con una varianza de 64, 
construya un intervalo bayesiano de 95% para p. 

c) iQue probabilidad a posteriori deberfa asignar el de- 
partamento al evento del inciso a)? 

18.8 Suponga que en el ejemplo 18.6 la empresa 
de equipo electrico no tiene suficiente information a 
priori con respecto a la duration media poblacional, 
para ser capaz de suponer una distribution normal para 
p. La empresa cree, sin embargo, que p seguramen- 
te estara entre 770 y 830 horas y considera que una 
aproximacion bayesiana mas realista seri'a suponer la 
distribution a priori 

tt(m) = ^, 770 < p < 830. 

Si una muestra aleatoria de 25 bombillas da una vida 
promedio de 780 horas, siga los pasos de la demostra- 
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cion del ejemplo 18.4 para encontrar la distribution a 
posteriori 

n(n\xi,X2, ■ ■ ■ , X 2 s). 

18.9 Suponga que el tiempo de falla T para cierta 
bisagra es una variable aleatoria exponential con den- 
sidad de probabilidad 

/(f) = 9e~ et , t > 0. 

De cierta experiencia anterior nos inclinamos a pensar 
que 6 es un valor de una variable aleatoria exponential 
con densidad de probabilidad 

tt( 0) = 2e“ 20 , 9 > 0. 

Si tenemos una muestra de n observaciones de T, mues- 
tre que la distribution a posteriori de 0 es una distri- 
bution gamma con parametros 


18.10 Suponga que una muestra consta de 5, 6, 6, 7, 
5, 6, 4, 9, 3, 6 y proviene de una poblacion de Poisson 
con media A. Suponga que el parametro A sigue una dis- 
tribution gamma con parametros (3, 2). Bajo la per- 
dida del error cuadratico, encuentre la estimation de 
Bayes para A. 

18.11 Una variable aleatoria X sigue una distribu- 
cion binomial negativa con parametros k = 5 y p (esto 
es, b*(x ; 5, p)). Ademas, se sabe que p sigue una dis- 
tribution uniforme en el intervalo (0, 1). Encuentre 
el estimado de Bayes de p bajo la perdida del error 
cuadratico. [Sugerencia: Le resultara util la funcion de 
densidad en el ejercicio 6.50. Ademas, la media de la dis- 
tribution beta con parametros (a, 0) es a/ (a + 0).] 


a = n + 1, y 0 


^ ' ti + 2 


-l 
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Apendice A Tablas y pruebas estadisticas 


Tabla A.l Sumas de probabilidad binomial b(x;n,p) 

x=0 


p 


n 

r 

0.10 

0.20 

0.25 

0.30 

0.40 

0.50 

0.60 

0.70 

0.80 

0.90 

i 

0 

0.9000 

0.8000 

0.7500 

0.7000 

0.6000 

0.5000 

0.4000 

0.3000 

0.2000 

0.1000 


1 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

2 

0 

0.8100 

0.6400 

0.5625 

0.4900 

0.3600 

0.2500 

0.1600 

0.0900 

0.0400 

0.0100 


1 

0.9900 

0.9600 

0.9375 

0.9100 

0.8400 

0.7500 

0.6400 

0.5100 

0.3600 

0.1900 


2 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

3 

0 

0.7290 

0.5120 

0.4219 

0.3430 

0.2160 

0.1250 

0.0640 

0.0270 

0.0080 

0.0010 


1 

0.9720 

0.8960 

0.8438 

0.7840 

0.6480 

0.5000 

0.3520 

0.2160 

0.1040 

0.0280 


2 

0.9990 

0.9920 

0.9844 

0.9730 

0.9360 

0.8750 

0.7840 

0.6570 

0.4880 

0.2710 


3 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

4 

0 

0.6561 

0.4096 

0.3164 

0.2401 

0.1296 

0.0625 

0.0256 

0.0081 

0.0016 

0.0001 


1 

0.9477 

0.8192 

0.7383 

0.6517 

0.4752 

0.3125 

0.1792 

0.0837 

0.0272 

0.0037 


2 

0.9963 

0.9728 

0.9492 

0.9163 

0.8208 

0.6875 

0.5248 

0.3483 

0.1808 

0.0523 


3 

0.9999 

0.9984 

0.9961 

0.9919 

0.9744 

0.9375 

0.8704 

0.7599 

0.5904 

0.3439 


4 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

5 

0 

0.5905 

0.3277 

0.2373 

0.1681 

0.0778 

0.0313 

0.0102 

0.0024 

0.0003 

0.0000 


1 

0.9185 

0.7373 

0.6328 

0.5282 

0.3370 

0.1875 

0.0870 

0.0308 

0.0067 

0.0005 


2 

0.9914 

0.9421 

0.8965 

0.8369 

0.6826 

0.5000 

0.3174 

0.1631 

0.0579 

0.0086 


3 

0.9995 

0.9933 

0.9844 

0.9692 

0.9130 

0.8125 

0.6630 

0.4718 

0.2627 

0.0815 


4 

1.0000 

0.9997 

0.9990 

0.9976 

0.9898 

0.9688 

0.9222 

0.8319 

0.6723 

0.4095 


5 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

6 

0 

0.5314 

0.2621 

0.1780 

0.1176 

0.0467 

0.0156 

0.0041 

0.0007 

0.0001 

0.0000 


1 

0.8857 

0.6554 

0.5339 

0.4202 

0.2333 

0.1094 

0.0410 

0.0109 

0.0016 

0.0001 


2 

0.9842 

0.9011 

0.8306 

0.7443 

0.5443 

0.3438 

0.1792 

0.0705 

0.0170 

0.0013 


3 

0.9987 

0.9830 

0.9624 

0.9295 

0.8208 

0.6563 

0.4557 

0.2557 

0.0989 

0.0159 


4 

0.9999 

0.9984 

0.9954 

0.9891 

0.9590 

0.8906 

0.7667 

0.5798 

0.3446 

0.1143 


5 

1.0000 

0.9999 

0.9998 

0.9993 

0.9959 

0.9844 

0.9533 

0.8824 

0.7379 

0.4686 


6 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

7 

0 

0.4783 

0.2097 

0.1335 

0.0824 

0.0280 

0.0078 

0.0016 

0.0002 

0.0000 



1 

0.8503 

0.5767 

0.4449 

0.3294 

0.1586 

0.0625 

0.0188 

0.0038 

0.0004 

0.0000 


2 

0.9743 

0.8520 

0.7564 

0.6471 

0.4199 

0.2266 

0.0963 

0.0288 

0.0047 

0.0002 


3 

0.9973 

0.9667 

0.9294 

0.8740 

0.7102 

0.5000 

0.2898 

0.1260 

0.0333 

0.0027 


4 

0.9998 

0.9953 

0.9871 

0.9712 

0.9037 

0.7734 

0.5801 

0.3529 

0.1480 

0.0257 


5 

1.0000 

0.9996 

0.9987 

0.9962 

0.9812 

0.9375 

0.8414 

0.6706 

0.4233 

0.1497 


6 


1.0000 

0.9999 

0.9998 

0.9984 

0.9922 

0.9720 

0.9176 

0.7903 

0.5217 


7 



1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 
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Tabla A.l Sumas de probabilidad binomial K x 'i n iP) 

x—0 


Tabla A.l (continuation) Sumas de probabilidad binomial ]T) b(x\n,p) 

x=0 


p 


n 

r 

0.10 

0.20 

0.25 

0.30 

0.40 

0.50 

0.60 

0.70 

0.80 

0.90 

8 

0 

0.4305 

0.1678 

0.1001 

0.0576 

0.0168 

0.0039 

0.0007 

0.0001 

0.0000 



1 

0.8131 

0.5033 

0.3671 

0.2553 

0.1064 

0.0352 

0.0085 

0.0013 

0.0001 



2 

0.9619 

0.7969 

0.6785 

0.5518 

0.3154 

0.1445 

0.0498 

0.0113 

0.0012 

0.0000 


3 

0.9950 

0.9437 

0.8862 

0.8059 

0.5941 

0.3633 

0.1737 

0.0580 

0.0104 

0.0004 


4 

0.9996 

0.9896 

0.9727 

0.9420 

0.8263 

0.6367 

0.4059 

0.1941 

0.0563 

0.0050 


5 

1.0000 

0.9988 

0.9958 

0.9887 

0.9502 

0.8555 

0.6846 

0.4482 

0.2031 

0.0381 


6 


0.9999 

0.9996 

0.9987 

0.9915 

0.9648 

0.8936 

0.7447 

0.4967 

0.1869 


7 


1.0000 

1.0000 

0.9999 

0.9993 

0.9961 

0.9832 

0.9424 

0.8322 

0.5695 


8 




1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

9 

0 

0.3874 

0.1342 

0.0751 

0.0404 

0.0101 

0.0020 

0.0003 

0.0000 




1 

0.7748 

0.4362 

0.3003 

0.1960 

0.0705 

0.0195 

0.0038 

0.0004 

0.0000 



2 

0.9470 

0.7382 

0.6007 

0.4628 

0.2318 

0.0898 

0.0250 

0.0043 

0.0003 

0.0000 


3 

0.9917 

0.9144 

0.8343 

0.7297 

0.4826 

0.2539 

0.0994 

0.0253 

0.0031 

0.0001 


4 

0.9991 

0.9804 

0.9511 

0.9012 

0.7334 

0.5000 

0.2666 

0.0988 

0.0196 

0.0009 


5 

0.9999 

0.9969 

0.9900 

0.9747 

0.9006 

0.7461 

0.5174 

0.2703 

0.0856 

0.0083 


6 

1.0000 

0.9997 

0.9987 

0.9957 

0.9750 

0.9102 

0.7682 

0.5372 

0.2618 

0.0530 


7 


1.0000 

0.9999 

0.9996 

0.9962 

0.9805 

0.9295 

0.8040 

0.5638 

0.2252 


8 



1.0000 

1.0000 

0.9997 

0.9980 

0.9899 

0.9596 

0.8658 

0.6126 


9 





1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

10 

0 

0.3487 

0.1074 

0.0563 

0.0282 

0.0060 

0.0010 

0.0001 

0.0000 




1 

0.7361 

0.3758 

0.2440 

0.1493 

0.0464 

0.0107 

0.0017 

0.0001 

0.0000 



2 

0.9298 

0.6778 

0.5256 

0.3828 

0.1673 

0.0547 

0.0123 

0.0016 

0.0001 



3 

0.9872 

0.8791 

0.7759 

0.6496 

0.3823 

0.1719 

0.0548 

0.0106 

0.0009 

0.0000 


4 

0.9984 

0.9672 

0.9219 

0.8497 

0.6331 

0.3770 

0.1662 

0.0473 

0.0064 

0.0001 


5 

0.9999 

0.9936 

0.9803 

0.9527 

0.8338 

0.6230 

0.3669 

0.1503 

0.0328 

0.0016 


6 

1.0000 

0.9991 

0.9965 

0.9894 

0.9452 

0.8281 

0.6177 

0.3504 

0.1209 

0.0128 


7 


0.9999 

0.9996 

0.9984 

0.9877 

0.9453 

0.8327 

0.6172 

0.3222 

0.0702 


8 


1.0000 

1.0000 

0.9999 

0.9983 

0.9893 

0.9536 

0.8507 

0.6242 

0.2639 


9 




1.0000 

0.9999 

0.9990 

0.9940 

0.9718 

0.8926 

0.6513 


10 





1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

11 

0 

0.3138 

0.0859 

0.0422 

0.0198 

0.0036 

0.0005 

0.0000 





1 

0.6974 

0.3221 

0.1971 

0.1130 

0.0302 

0.0059 

0.0007 

0.0000 




2 

0.9104 

0.6174 

0.4552 

0.3127 

0.1189 

0.0327 

0.0059 

0.0006 

0.0000 



3 

0.9815 

0.8389 

0.7133 

0.5696 

0.2963 

0.1133 

0.0293 

0.0043 

0.0002 



4 

0.9972 

0.9496 

0.8854 

0.7897 

0.5328 

0.2744 

0.0994 

0.0216 

0.0020 

0.0000 


5 

0.9997 

0.9883 

0.9657 

0.9218 

0.7535 

0.5000 

0.2465 

0.0782 

0.0117 

0.0003 


6 

1.0000 

0.9980 

0.9924 

0.9784 

0.9006 

0.7256 

0.4672 

0.2103 

0.0504 

0.0028 


7 


0.9998 

0.9988 

0.9957 

0.9707 

0.8867 

0.7037 

0.4304 

0.1611 

0.0185 


8 


1.0000 

0.9999 

0.9994 

0.9941 

0.9673 

0.8811 

0.6873 

0.3826 

0.0896 


9 



1.0000 

1.0000 

0.9993 

0.9941 

0.9698 

0.8870 

0.6779 

0.3026 


10 





1.0000 

0.9995 

0.9964 

0.9802 

0.9141 

0.6862 


11 






1.0000 

1.0000 

1.0000 

1.0000 

1.0000 
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Apendice A Tablas y pruebas estadi'sticas 


Tabla A.l (continuation) Sumas de probabilidad binomial b(x-,n,p ) 

x=0 


p 


n r 

0.10 

0.20 

0.25 

0.30 

0.40 

0.50 

0.60 

0.70 

0.80 

0.90 

12 0 

0.2824 

0.0687 

0.0317 

0.0138 

0.0022 

0.0002 

0.0000 




1 

0.6590 

0.2749 

0.1584 

0.0850 

0.0196 

0.0032 

0.0003 

0.0000 



2 

0.8891 

0.5583 

0.3907 

0.2528 

0.0834 

0.0193 

0.0028 

0.0002 

0.0000 


3 

0.9744 

0.7946 

0.6488 

0.4925 

0.2253 

0.0730 

0.0153 

0.0017 

0.0001 


4 

0.9957 

0.9274 

0.8424 

0.7237 

0.4382 

0.1938 

0.0573 

0.0095 

0.0006 

0.0000 

5 

0.9995 

0.9806 

0.9456 

0.8822 

0.6652 

0.3872 

0.1582 

0.0386 

0.0039 

0.0001 

6 

0.9999 

0.9961 

0.9857 

0.9614 

0.8418 

0.6128 

0.3348 

0.1178 

0.0194 

0.0005 

7 

1.0000 

0.9994 

0.9972 

0.9905 

0.9427 

0.8062 

0.5618 

0.2763 

0.0726 

0.0043 

8 


0.9999 

0.9996 

0.9983 

0.9847 

0.9270 

0.7747 

0.5075 

0.2054 

0.0256 

9 


1.0000 

1.0000 

0.9998 

0.9972 

0.9807 

0.9166 

0.7472 

0.4417 

0.1109 

10 




1.0000 

0.9997 

0.9968 

0.9804 

0.9150 

0.7251 

0.3410 

11 





1.0000 

0.9998 

0.9978 

0.9862 

0.9313 

0.7176 

12 






1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

13 0 

0.2542 

0.0550 

0.0238 

0.0097 

0.0013 

0.0001 

0.0000 




1 

0.6213 

0.2336 

0.1267 

0.0637 

0.0126 

0.0017 

0.0001 

0.0000 



2 

0.8661 

0.5017 

0.3326 

0.2025 

0.0579 

0.0112 

0.0013 

0.0001 



3 

0.9658 

0.7473 

0.5843 

0.4206 

0.1686 

0.0461 

0.0078 

0.0007 

0.0000 


4 

0.9935 

0.9009 

0.7940 

0.6543 

0.3530 

0.1334 

0.0321 

0.0040 

0.0002 


5 

0.9991 

0.9700 

0.9198 

0.8346 

0.5744 

0.2905 

0.0977 

0.0182 

0.0012 

0.0000 

6 

0.9999 

0.9930 

0.9757 

0.9376 

0.7712 

0.5000 

0.2288 

0.0624 

0.0070 

0.0001 

7 

1.0000 

0.9988 

0.9944 

0.9818 

0.9023 

0.7095 

0.4256 

0.1654 

0.0300 

0.0009 

8 


0.9998 

0.9990 

0.9960 

0.9679 

0.8666 

0.6470 

0.3457 

0.0991 

0.0065 

9 


1.0000 

0.9999 

0.9993 

0.9922 

0.9539 

0.8314 

0.5794 

0.2527 

0.0342 

10 



1.0000 

0.9999 

0.9987 

0.9888 

0.9421 

0.7975 

0.4983 

0.1339 

11 




1.0000 

0.9999 

0.9983 

0.9874 

0.9363 

0.7664 

0.3787 

12 





1.0000 

0.9999 

0.9987 

0.9903 

0.9450 

0.7458 

13 






1.0000 

1.0000 

1.0000 

1.0000 

1.0000 

14 0 

0.2288 

0.0440 

0.0178 

0.0068 

0.0008 

0.0001 

0.0000 




1 

0.5846 

0.1979 

0.1010 

0.0475 

0.0081 

0.0009 

0.0001 




2 

0.8416 

0.4481 

0.2811 

0.1608 

0.0398 

0.0065 

0.0006 

0.0000 



3 

0.9559 

0.6982 

0.5213 

0.3552 

0.1243 

0.0287 

0.0039 

0.0002 



4 

0.9908 

0.8702 

0.7415 

0.5842 

0.2793 

0.0898 

0.0175 

0.0017 

0.0000 


5 

0.9985 

0.9561 

0.8883 

0.7805 

0.4859 

0.2120 

0.0583 

0.0083 

0.0004 


6 

0.9998 

0.9884 

0.9617 

0.9067 

0.6925 

0.3953 

0.1501 

0.0315 

0.0024 

0.0000 

7 

1.0000 

0.9976 

0.9897 

0.9685 

0.8499 

0.6047 

0.3075 

0.0933 

0.0116 

0.0002 

8 


0.9996 

0.9978 

0.9917 

0.9417 

0.7880 

0.5141 

0.2195 

0.0439 

0.0015 

9 


1.0000 

0.9997 

0.9983 

0.9825 

0.9102 

0.7207 

0.4158 

0.1298 

0.0092 

10 



1.0000 

0.9998 

0.9961 

0.9713 

0.8757 

0.6448 

0.3018 

0.0441 

11 




1.0000 

0.9994 

0.9935 

0.9602 

0.8392 

0.5519 

0.1584 

12 





0.9999 

0.9991 

0.9919 

0.9525 

0.8021 

0.4154 

13 





1.0000 

0.9999 

0.9992 

0.9932 

0.9560 

0.7712 

14 






1.0000 

1.0000 

1.0000 

1.0000 

1.0000 



745 


Tabla A.l Sumas de probabilidad binomial K x 'i n,p) 

x—0 

r 

Tabla A.l (continuacion) Sumas de probabilidad binomial b(x',n,p) 

x=0 


p 


n r 

0.10 

0.20 

0.25 

0.30 

0.40 

0.50 

0.60 

0.70 

0.80 

0.90 

15 0 

0.2059 

0.0352 

0.0134 

0.0047 

0.0005 

0.0000 





1 

0.5490 

0.1671 

0.0802 

0.0353 

0.0052 

0.0005 

0.0000 




2 

0.8159 

0.3980 

0.2361 

0.1268 

0.0271 

0.0037 

0.0003 

0.0000 



3 

0.9444 

0.6482 

0.4613 

0.2969 

0.0905 

0.0176 

0.0019 

0.0001 



4 

0.9873 

0.8358 

0.6865 

0.5155 

0.2173 

0.0592 

0.0093 

0.0007 

0.0000 


5 

0.9978 

0.9389 

0.8516 

0.7216 

0.4032 

0.1509 

0.0338 

0.0037 

0.0001 


6 

0.9997 

0.9819 

0.9434 

0.8689 

0.6098 

0.3036 

0.0950 

0.0152 

0.0008 


7 

1.0000 

0.9958 

0.9827 

0.9500 

0.7869 

0.5000 

0.2131 

0.0500 

0.0042 

0.0000 

8 


0.9992 

0.9958 

0.9848 

0.9050 

0.6964 

0.3902 

0.1311 

0.0181 

0.0003 

9 


0.9999 

0.9992 

0.9963 

0.9662 

0.8491 

0.5968 

0.2784 

0.0611 

0.0022 

10 


1.0000 

0.9999 

0.9993 

0.9907 

0.9408 

0.7827 

0.4845 

0.1642 

0.0127 

11 



1.0000 

0.9999 

0.9981 

0.9824 

0.9095 

0.7031 

0.3518 

0.0556 

12 




1.0000 

0.9997 

0.9963 

0.9729 

0.8732 

0.6020 

0.1841 

13 





1.0000 

0.9995 

0.9948 

0.9647 

0.8329 

0.4510 

14 






1.0000 

0.9995 

0.9953 

0.9648 

0.7941 

15 







1.0000 

1.0000 

1.0000 

1.0000 

16 0 

0.1853 

0.0281 

0.0100 

0.0033 

0.0003 

0.0000 





1 

0.5147 

0.1407 

0.0635 

0.0261 

0.0033 

0.0003 

0.0000 




2 

0.7892 

0.3518 

0.1971 

0.0994 

0.0183 

0.0021 

0.0001 




3 

0.9316 

0.5981 

0.4050 

0.2459 

0.0651 

0.0106 

0.0009 

0.0000 



4 

0.9830 

0.7982 

0.6302 

0.4499 

0.1666 

0.0384 

0.0049 

0.0003 



5 

0.9967 

0.9183 

0.8103 

0.6598 

0.3288 

0.1051 

0.0191 

0.0016 

0.0000 


6 

0.9995 

0.9733 

0.9204 

0.8247 

0.5272 

0.2272 

0.0583 

0.0071 

0.0002 


7 

0.9999 

0.9930 

0.9729 

0.9256 

0.7161 

0.4018 

0.1423 

0.0257 

0.0015 

0.0000 

8 

1.0000 

0.9985 

0.9925 

0.9743 

0.8577 

0.5982 

0.2839 

0.0744 

0.0070 

0.0001 

9 


0.9998 

0.9984 

0.9929 

0.9417 

0.7728 

0.4728 

0.1753 

0.0267 

0.0005 

10 


1.0000 

0.9997 

0.9984 

0.9809 

0.8949 

0.6712 

0.3402 

0.0817 

0.0033 

11 



1.0000 

0.9997 

0.9951 

0.9616 

0.8334 

0.5501 

0.2018 

0.0170 

12 




1.0000 

0.9991 

0.9894 

0.9349 

0.7541 

0.4019 

0.0684 

13 





0.9999 

0.9979 

0.9817 

0.9006 

0.6482 

0.2108 

14 





1.0000 

0.9997 

0.9967 

0.9739 

0.8593 

0.4853 

15 






1.0000 

0.9997 

0.9967 

0.9719 

0.8147 

16 







1.0000 

1.0000 

1.0000 

1.0000 
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Apendice A Tablas y pruebas estadi'sticas 


Tabla A.l (continuation) Sumas de probabilidad binomial b( x > n iP) 

x=0 


p 


n r 

0.10 

0.20 

0.25 

0.30 

0.40 

0.50 

0.60 

0.70 

0.80 

0.90 

17 0 

0.1668 

0.0225 

0.0075 

0.0023 

0.0002 

0.0000 





1 

0.4818 

0.1182 

0.0501 

0.0193 

0.0021 

0.0001 

0.0000 




2 

0.7618 

0.3096 

0.1637 

0.0774 

0.0123 

0.0012 

0.0001 




3 

0.9174 

0.5489 

0.3530 

0.2019 

0.0464 

0.0064 

0.0005 

0.0000 



4 

0.9779 

0.7582 

0.5739 

0.3887 

0.1260 

0.0245 

0.0025 

0.0001 



5 

0.9953 

0.8943 

0.7653 

0.5968 

0.2639 

0.0717 

0.0106 

0.0007 

0.0000 


6 

0.9992 

0.9623 

0.8929 

0.7752 

0.4478 

0.1662 

0.0348 

0.0032 

0.0001 


7 

0.9999 

0.9891 

0.9598 

0.8954 

0.6405 

0.3145 

0.0919 

0.0127 

0.0005 


8 

1.0000 

0.9974 

0.9876 

0.9597 

0.8011 

0.5000 

0.1989 

0.0403 

0.0026 

0.0000 

9 


0.9995 

0.9969 

0.9873 

0.9081 

0.6855 

0.3595 

0.1046 

0.0109 

0.0001 

10 


0.9999 

0.9994 

0.9968 

0.9652 

0.8338 

0.5522 

0.2248 

0.0377 

0.0008 

11 


1.0000 

0.9999 

0.9993 

0.9894 

0.9283 

0.7361 

0.4032 

0.1057 

0.0047 

12 



1.0000 

0.9999 

0.9975 

0.9755 

0.8740 

0.6113 

0.2418 

0.0221 

13 




1.0000 

0.9995 

0.9936 

0.9536 

0.7981 

0.4511 

0.0826 

14 





0.9999 

0.9988 

0.9877 

0.9226 

0.6904 

0.2382 

15 





1.0000 

0.9999 

0.9979 

0.9807 

0.8818 

0.5182 

16 






1.0000 

0.9998 

0.9977 

0.9775 

0.8332 

17 







1.0000 

1.0000 

1.0000 

1.0000 

18 0 

0.1501 

0.0180 

0.0056 

0.0016 

0.0001 

0.0000 





1 

0.4503 

0.0991 

0.0395 

0.0142 

0.0013 

0.0001 





2 

0.7338 

0.2713 

0.1353 

0.0600 

0.0082 

0.0007 

0.0000 




3 

0.9018 

0.5010 

0.3057 

0.1646 

0.0328 

0.0038 

0.0002 




4 

0.9718 

0.7164 

0.5187 

0.3327 

0.0942 

0.0154 

0.0013 

0.0000 



5 

0.9936 

0.8671 

0.7175 

0.5344 

0.2088 

0.0481 

0.0058 

0.0003 



6 

0.9988 

0.9487 

0.8610 

0.7217 

0.3743 

0.1189 

0.0203 

0.0014 

0.0000 


7 

0.9998 

0.9837 

0.9431 

0.8593 

0.5634 

0.2403 

0.0576 

0.0061 

0.0002 


8 

1.0000 

0.9957 

0.9807 

0.9404 

0.7368 

0.4073 

0.1347 

0.0210 

0.0009 


9 


0.9991 

0.9946 

0.9790 

0.8653 

0.5927 

0.2632 

0.0596 

0.0043 

0.0000 

10 


0.9998 

0.9988 

0.9939 

0.9424 

0.7597 

0.4366 

0.1407 

0.0163 

0.0002 

11 


1.0000 

0.9998 

0.9986 

0.9797 

0.8811 

0.6257 

0.2783 

0.0513 

0.0012 

12 



1.0000 

0.9997 

0.9942 

0.9519 

0.7912 

0.4656 

0.1329 

0.0064 

13 




1.0000 

0.9987 

0.9846 

0.9058 

0.6673 

0.2836 

0.0282 

14 





0.9998 

0.9962 

0.9672 

0.8354 

0.4990 

0.0982 

15 





1.0000 

0.9993 

0.9918 

0.9400 

0.7287 

0.2662 

16 






0.9999 

0.9987 

0.9858 

0.9009 

0.5497 

17 






1.0000 

0.9999 

0.9984 

0.9820 

0.8499 

18 







1.0000 

1.0000 

1.0000 

1.0000 
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r 

Tabla A.l Sumas de probabilidad binomial K x 'i n,p) 

x—0 

r 

Tabla A.l (continuation) Sumas de probabilidad binomial b(x-,n,p) 


x=0 







P 






n r 

0.10 

0.20 

0.25 

0.30 

0.40 

0.50 

0.60 

0.70 

0.80 

0.90 

19 0 

0.1351 

0.0144 

0.0042 

0.0011 

0.0001 






1 

0.4203 

0.0829 

0.0310 

0.0104 

0.0008 

0.0000 





2 

0.7054 

0.2369 

0.1113 

0.0462 

0.0055 

0.0004 

0.0000 




3 

0.8850 

0.4551 

0.2631 

0.1332 

0.0230 

0.0022 

0.0001 




4 

0.9648 

0.6733 

0.4654 

0.2822 

0.0696 

0.0096 

0.0006 

0.0000 



5 

0.9914 

0.8369 

0.6678 

0.4739 

0.1629 

0.0318 

0.0031 

0.0001 



6 

0.9983 

0.9324 

0.8251 

0.6655 

0.3081 

0.0835 

0.0116 

0.0006 



7 

0.9997 

0.9767 

0.9225 

0.8180 

0.4878 

0.1796 

0.0352 

0.0028 

0.0000 


8 

1.0000 

0.9933 

0.9713 

0.9161 

0.6675 

0.3238 

0.0885 

0.0105 

0.0003 


9 


0.9984 

0.9911 

0.9674 

0.8139 

0.5000 

0.1861 

0.0326 

0.0016 


10 


0.9997 

0.9977 

0.9895 

0.9115 

0.6762 

0.3325 

0.0839 

0.0067 

0.0000 

11 


1.0000 

0.9995 

0.9972 

0.9648 

0.8204 

0.5122 

0.1820 

0.0233 

0.0003 

12 



0.9999 

0.9994 

0.9884 

0.9165 

0.6919 

0.3345 

0.0676 

0.0017 

13 



1.0000 

0.9999 

0.9969 

0.9682 

0.8371 

0.5261 

0.1631 

0.0086 

14 




1.0000 

0.9994 

0.9904 

0.9304 

0.7178 

0.3267 

0.0352 

15 





0.9999 

0.9978 

0.9770 

0.8668 

0.5449 

0.1150 

16 





1.0000 

0.9996 

0.9945 

0.9538 

0.7631 

0.2946 

17 






1.0000 

0.9992 

0.9896 

0.9171 

0.5797 

18 







0.9999 

0.9989 

0.9856 

0.8649 

19 







1.0000 

1.0000 

1.0000 

1.0000 

20 0 

0.1216 

0.0115 

0.0032 

0.0008 

0.0000 






1 

0.3917 

0.0692 

0.0243 

0.0076 

0.0005 

0.0000 





2 

0.6769 

0.2061 

0.0913 

0.0355 

0.0036 

0.0002 





3 

0.8670 

0.4114 

0.2252 

0.1071 

0.0160 

0.0013 

0.0000 




4 

0.9568 

0.6296 

0.4148 

0.2375 

0.0510 

0.0059 

0.0003 




5 

0.9887 

0.8042 

0.6172 

0.4164 

0.1256 

0.0207 

0.0016 

0.0000 



6 

0.9976 

0.9133 

0.7858 

0.6080 

0.2500 

0.0577 

0.0065 

0.0003 



7 

0.9996 

0.9679 

0.8982 

0.7723 

0.4159 

0.1316 

0.0210 

0.0013 

0.0000 


8 

0.9999 

0.9900 

0.9591 

0.8867 

0.5956 

0.2517 

0.0565 

0.0051 

0.0001 


9 

1.0000 

0.9974 

0.9861 

0.9520 

0.7553 

0.4119 

0.1275 

0.0171 

0.0006 


10 


0.9994 

0.9961 

0.9829 

0.8725 

0.5881 

0.2447 

0.0480 

0.0026 

0.0000 

11 


0.9999 

0.9991 

0.9949 

0.9435 

0.7483 

0.4044 

0.1133 

0.0100 

0.0001 

12 


1.0000 

0.9998 

0.9987 

0.9790 

0.8684 

0.5841 

0.2277 

0.0321 

0.0004 

13 



1.0000 

0.9997 

0.9935 

0.9423 

0.7500 

0.3920 

0.0867 

0.0024 

14 




1.0000 

0.9984 

0.9793 

0.8744 

0.5836 

0.1958 

0.0113 

15 





0.9997 

0.9941 

0.9490 

0.7625 

0.3704 

0.0432 

16 





1.0000 

0.9987 

0.9840 

0.8929 

0.5886 

0.1330 

17 






0.9998 

0.9964 

0.9645 

0.7939 

0.3231 

18 






1.0000 

0.9995 

0.9924 

0.9308 

0.6083 

19 







1.0000 

0.9992 

0.9885 

0.8784 

20 








1.0000 

1.0000 

1.0000 
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Tabla A. 2 Sumas de probabilidad de Poisson p( x i m) 

x=0 




r 

0.1 

0.2 

0.3 

0.4 

0.5 

0.6 

0.7 

0.8 

0.9 

0 

0.9048 

0.8187 

0.7408 

0.6703 

0.6065 

0.5488 

0.4966 

0.4493 

0.4066 

1 

0.9953 

0.9825 

0.9631 

0.9384 

0.9098 

0.8781 

0.8442 

0.8088 

0.7725 

2 

0.9998 

0.9989 

0.9964 

0.9921 

0.9856 

0.9769 

0.9659 

0.9526 

0.9371 

3 

1.0000 

0.9999 

0.9997 

0.9992 

0.9982 

0.9966 

0.9942 

0.9909 

0.9865 

4 


1.0000 

1.0000 

0.9999 

0.9998 

0.9996 

0.9992 

0.9986 

0.9977 

5 




1.0000 

1.0000 

1.0000 

0.9999 

0.9998 

0.9997 

6 







1.0000 

1.0000 

1.0000 







l 1 





r 

1.0 

1.5 

2.0 

2.5 

3.0 

3.5 

4.0 

4.5 

5.0 


0 

0.3679 

0.2231 

0.1353 

0.0821 

0.0498 

0.0302 

0.0183 

0.0111 

0.0067 

1 

0.7358 

0.5578 

0.4060 

0.2873 

0.1991 

0.1359 

0.0916 

0.0611 

0.0404 

2 

0.9197 

0.8088 

0.6767 

0.5438 

0.4232 

0.3208 

0.2381 

0.1736 

0.1247 

3 

0.9810 

0.9344 

0.8571 

0.7576 

0.6472 

0.5366 

0.4335 

0.3423 

0.2650 

4 

0.9963 

0.9814 

0.9473 

0.8912 

0.8153 

0.7254 

0.6288 

0.5321 

0.4405 

5 

0.9994 

0.9955 

0.9834 

0.9580 

0.9161 

0.8576 

0.7851 

0.7029 

0.6160 

6 

0.9999 

0.9991 

0.9955 

0.9858 

0.9665 

0.9347 

0.8893 

0.8311 

0.7622 

7 

1.0000 

0.9998 

0.9989 

0.9958 

0.9881 

0.9733 

0.9489 

0.9134 

0.8666 

8 


1.0000 

0.9998 

0.9989 

0.9962 

0.9901 

0.9786 

0.9597 

0.9319 

9 



1.0000 

0.9997 

0.9989 

0.9967 

0.9919 

0.9829 

0.9682 

10 




0.9999 

0.9997 

0.9990 

0.9972 

0.9933 

0.9863 

11 




1.0000 

0.9999 

0.9997 

0.9991 

0.9976 

0.9945 

12 





1.0000 

0.9999 

0.9997 

0.9992 

0.9980 

13 






1.0000 

0.9999 

0.9997 

0.9993 

14 







1.0000 

0.9999 

0.9998 

15 








1.0000 

0.9999 

16 









1.0000 
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Tabla A. 2 Sumas de probabilidad de Poisson p ( x > I 1 ) 

x=0 


Tabla A. 2 (continuation) Sumas de probabilidad de Poisson p( x > P) 

x=0 


p 


r 

5.5 

6.0 

6.5 

7.0 

7.5 

8.0 

8.5 

9.0 

9.5 

0 

0.0041 

0.0025 

0.0015 

0.0009 

0.0006 

0.0003 

0.0002 

0.0001 

0.0001 

1 

0.0266 

0.0174 

0.0113 

0.0073 

0.0047 

0.0030 

0.0019 

0.0012 

0.0008 

2 

0.0884 

0.0620 

0.0430 

0.0296 

0.0203 

0.0138 

0.0093 

0.0062 

0.0042 

3 

0.2017 

0.1512 

0.1118 

0.0818 

0.0591 

0.0424 

0.0301 

0.0212 

0.0149 

4 

0.3575 

0.2851 

0.2237 

0.1730 

0.1321 

0.0996 

0.0744 

0.0550 

0.0403 

5 

0.5289 

0.4457 

0.3690 

0.3007 

0.2414 

0.1912 

0.1496 

0.1157 

0.0885 

6 

0.6860 

0.6063 

0.5265 

0.4497 

0.3782 

0.3134 

0.2562 

0.2068 

0.1649 

7 

0.8095 

0.7440 

0.6728 

0.5987 

0.5246 

0.4530 

0.3856 

0.3239 

0.2687 

8 

0.8944 

0.8472 

0.7916 

0.7291 

0.6620 

0.5925 

0.5231 

0.4557 

0.3918 

9 

0.9462 

0.9161 

0.8774 

0.8305 

0.7764 

0.7166 

0.6530 

0.5874 

0.5218 

10 

0.9747 

0.9574 

0.9332 

0.9015 

0.8622 

0.8159 

0.7634 

0.7060 

0.6453 

11 

0.9890 

0.9799 

0.9661 

0.9467 

0.9208 

0.8881 

0.8487 

0.8030 

0.7520 

12 

0.9955 

0.9912 

0.9840 

0.9730 

0.9573 

0.9362 

0.9091 

0.8758 

0.8364 

13 

0.9983 

0.9964 

0.9929 

0.9872 

0.9784 

0.9658 

0.9486 

0.9261 

0.8981 

14 

0.9994 

0.9986 

0.9970 

0.9943 

0.9897 

0.9827 

0.9726 

0.9585 

0.9400 

15 

0.9998 

0.9995 

0.9988 

0.9976 

0.9954 

0.9918 

0.9862 

0.9780 

0.9665 

16 

0.9999 

0.9998 

0.9996 

0.9990 

0.9980 

0.9963 

0.9934 

0.9889 

0.9823 

17 

1.0000 

0.9999 

0.9998 

0.9996 

0.9992 

0.9984 

0.9970 

0.9947 

0.9911 

18 

19 

20 

21 

22 

23 


1.0000 

0.9999 

1.0000 

0.9999 

1.0000 

0.9997 

0.9999 

0.9993 

0.9997 

0.9999 

1.0000 

0.9987 

0.9995 

0.9998 

0.9999 

1.0000 

0.9976 

0.9989 

0.9996 

0.9998 

0.9999 

1.0000 

0.9957 

0.9980 

0.9991 

0.9996 

0.9999 

0.9999 


24 1.0000 
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Tabla A. 2 (continuation) Sumas de probabilidad de Poisson p{ x ] d) 

x=0 




r 

10.0 

11.0 

12.0 

13.0 

14.0 

15.0 

16.0 

17.0 

18.8 

0 

0.0000 

0.0000 

0.0000 







1 

0.0005 

0.0002 

0.0001 

0.0000 

0.0000 





2 

0.0028 

0.0012 

0.0005 

0.0002 

0.0001 

0.0000 

0.0000 



3 

0.0103 

0.0049 

0.0023 

0.0011 

0.0005 

0.0002 

0.0001 

0.0000 

0.0000 

4 

0.0293 

0.0151 

0.0076 

0.0037 

0.0018 

0.0009 

0.0004 

0.0002 

0.0001 

5 

0.0671 

0.0375 

0.0203 

0.0107 

0.0055 

0.0028 

0.0014 

0.0007 

0.0003 

6 

0.1301 

0.0786 

0.0458 

0.0259 

0.0142 

0.0076 

0.0040 

0.0021 

0.0010 

7 

0.2202 

0.1432 

0.0895 

0.0540 

0.0316 

0.0180 

0.0100 

0.0054 

0.0029 

8 

0.3328 

0.2320 

0.1550 

0.0998 

0.0621 

0.0374 

0.0220 

0.0126 

0.0071 

9 

0.4579 

0.3405 

0.2424 

0.1658 

0.1094 

0.0699 

0.0433 

0.0261 

0.0154 

10 

0.5830 

0.4599 

0.3472 

0.2517 

0.1757 

0.1185 

0.0774 

0.0491 

0.0304 

11 

0.6968 

0.5793 

0.4616 

0.3532 

0.2600 

0.1848 

0.1270 

0.0847 

0.0549 

12 

0.7916 

0.6887 

0.5760 

0.4631 

0.3585 

0.2676 

0.1931 

0.1350 

0.0917 

13 

0.8645 

0.7813 

0.6815 

0.5730 

0.4644 

0.3632 

0.2745 

0.2009 

0.1426 

14 

0.9165 

0.8540 

0.7720 

0.6751 

0.5704 

0.4657 

0.3675 

0.2808 

0.2081 

15 

0.9513 

0.9074 

0.8444 

0.7636 

0.6694 

0.5681 

0.4667 

0.3715 

0.2867 

16 

0.9730 

0.9441 

0.8987 

0.8355 

0.7559 

0.6641 

0.5660 

0.4677 

0.3751 

17 

0.9857 

0.9678 

0.9370 

0.8905 

0.8272 

0.7489 

0.6593 

0.5640 

0.4686 

18 

0.9928 

0.9823 

0.9626 

0.9302 

0.8826 

0.8195 

0.7423 

0.6550 

0.5622 

19 

0.9965 

0.9907 

0.9787 

0.9573 

0.9235 

0.8752 

0.8122 

0.7363 

0.6509 

20 

0.9984 

0.9953 

0.9884 

0.9750 

0.9521 

0.9170 

0.8682 

0.8055 

0.7307 

21 

0.9993 

0.9977 

0.9939 

0.9859 

0.9712 

0.9469 

0.9108 

0.8615 

0.7991 

22 

0.9997 

0.9990 

0.9970 

0.9924 

0.9833 

0.9673 

0.9418 

0.9047 

0.8551 

23 

0.9999 

0.9995 

0.9985 

0.9960 

0.9907 

0.9805 

0.9633 

0.9367 

0.8989 

24 

1.0000 

0.9998 

0.9993 

0.9980 

0.9950 

0.9888 

0.9777 

0.9594 

0.9317 

25 


0.9999 

0.9997 

0.9990 

0.9974 

0.9938 

0.9869 

0.9748 

0.9554 

26 


1.0000 

0.9999 

0.9995 

0.9987 

0.9967 

0.9925 

0.9848 

0.9718 

27 



0.9999 

0.9998 

0.9994 

0.9983 

0.9959 

0.9912 

0.9827 

28 



1.0000 

0.9999 

0.9997 

0.9991 

0.9978 

0.9950 

0.9897 

29 




1.0000 

0.9999 

0.9996 

0.9989 

0.9973 

0.9941 

30 





0.9999 

0.9998 

0.9994 

0.9986 

0.9967 

31 





1.0000 

0.9999 

0.9997 

0.9993 

0.9982 

32 






1.0000 

0.9999 

0.9996 

0.9990 

33 







0.9999 

0.9998 

0.9995 

34 







1.0000 

0.9999 

0.9998 

35 








1.0000 

0.9999 


0.9999 

1.0000 


36 
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i 

i 

. i 

Area 

I 

I 

, l_ 

Tabla A. 3 Areas bajo la curva normal 0 


z 

.00 

.01 

.02 

.03 

.04 

.05 

.06 

.07 

.08 

.09 

- 3.4 

0.0003 

0.0003 

0.0003 

0.0003 

0.0003 

0.0003 

0.0003 

0.0003 

0.0003 

0.0002 

- 3.3 

0.0005 

0.0005 

0.0005 

0.0004 

0.0004 

0.0004 

0.0004 

0.0004 

0.0004 

0.0003 

- 3.2 

0.0007 

0.0007 

0.0006 

0.0006 

0.0006 

0.0006 

0.0006 

0.0005 

0.0005 

0.0005 

3.1 

0.0010 

0.0009 

0.0009 

0.0009 

0.0008 

0.0008 

0.0008 

0.0008 

0.0007 

0.0007 

3.0 

0.0013 

0.0013 

0.0013 

0.0012 

0.0012 

0.0011 

0.0011 

0.0011 

0.0010 

0.0010 

2.9 

0.0019 

0.0018 

0.0018 

0.0017 

0.0016 

0.0016 

0.0015 

0.0015 

0.0014 

0.0014 

- 2.8 

0.0026 

0.0025 

0.0024 

0.0023 

0.0023 

0.0022 

0.0021 

0.0021 

0.0020 

0.0019 

- 2.7 

0.0035 

0.0034 

0.0033 

0.0032 

0.0031 

0.0030 

0.0029 

0.0028 

0.0027 

0.0026 

- 2.6 

0.0047 

0.0045 

0.0044 

0.0043 

0.0041 

0.0040 

0.0039 

0.0038 

0.0037 

0.0036 

- 2.5 

0.0062 

0.0060 

0.0059 

0.0057 

0.0055 

0.0054 

0.0052 

0.0051 

0.0049 

0.0048 

2.4 

0.0082 

0.0080 

0.0078 

0.0075 

0.0073 

0.0071 

0.0069 

0.0068 

0.0066 

0.0064 

- 2.3 

0.0107 

0.0104 

0.0102 

0.0099 

0.0096 

0.0094 

0.0091 

0.0089 

0.0087 

0.0084 

- 2.2 

0.0139 

0.0136 

0.0132 

0.0129 

0.0125 

0.0122 

0.0119 

0.0116 

0.0113 

0.0110 

2.1 

0.0179 

0.0174 

0.0170 

0.0166 

0.0162 

0.0158 

0.0154 

0.0150 

0.0146 

0.0143 

2.0 

0.0228 

0.0222 

0.0217 

0.0212 

0.0207 

0.0202 

0.0197 

0.0192 

0.0188 

0.0183 

- 1.9 

0.0287 

0.0281 

0.0274 

0.0268 

0.0262 

0.0256 

0.0250 

0.0244 

0.0239 

0.0233 

1.8 

0.0359 

0.0351 

0.0344 

0.0336 

0.0329 

0.0322 

0.0314 

0.0307 

0.0301 

0.0294 

1.7 

0.0446 

0.0436 

0.0427 

0.0418 

0.0409 

0.0401 

0.0392 

0.0384 

0.0375 

0.0367 

- 1.6 

0.0548 

0.0537 

0.0526 

0.0516 

0.0505 

0.0495 

0.0485 

0.0475 

0.0465 

0.0455 

- 1.5 

0.0668 

0.0655 

0.0643 

0.0630 

0.0618 

0.0606 

0.0594 

0.0582 

0.0571 

0.0559 

1.4 

0.0808 

0.0793 

0.0778 

0.0764 

0.0749 

0.0735 

0.0721 

0.0708 

0.0694 

0.0681 

- 1.3 

0.0968 

0.0951 

0.0934 

0.0918 

0.0901 

0.0885 

0.0869 

0.0853 

0.0838 

0.0823 

- 1.2 

0.1151 

0.1131 

0.1112 

0.1093 

0.1075 

0.1056 

0.1038 

0.1020 

0.1003 

0.0985 

1.1 

0.1357 

0.1335 

0.1314 

0.1292 

0.1271 

0.1251 

0.1230 

0.1210 

0.1190 

0.1170 

1.0 

0.1587 

0.1562 

0.1539 

0.1515 

0.1492 

0.1469 

0.1446 

0.1423 

0.1401 

0.1379 

- 0.9 

0.1841 

0.1814 

0.1788 

0.1762 

0.1736 

0.1711 

0.1685 

0.1660 

0.1635 

0.1611 

0.8 

0.2119 

0.2090 

0.2061 

0.2033 

0.2005 

0.1977 

0.1949 

0.1922 

0.1894 

0.1867 

0.7 

0.2420 

0.2389 

0.2358 

0.2327 

0.2296 

0.2266 

0.2236 

0.2206 

0.2177 

0.2148 

0.6 

0.2743 

0.2709 

0.2676 

0.2643 

0.2611 

0.2578 

0.2546 

0.2514 

0.2483 

0.2451 

- 0.5 

0.3085 

0.3050 

0.3015 

0.2981 

0.2946 

0.2912 

0.2877 

0.2843 

0.2810 

0.2776 

0.4 

0.3446 

0.3409 

0.3372 

0.3336 

0.3300 

0.3264 

0.3228 

0.3192 

0.3156 

0.3121 

- 0.3 

0.3821 

0.3783 

0.3745 

0.3707 

0.3669 

0.3632 

0.3594 

0.3557 

0.3520 

0.3483 

- 0.2 

0.4207 

0.4168 

0.4129 

0.4090 

0.4052 

0.4013 

0.3974 

0.3936 

0.3897 

0.3859 

- 0.1 

0.4602 

0.4562 

0.4522 

0.4483 

0.4443 

0.4404 

0.4364 

0.4325 

0.4286 

0.4247 

0.0 

0.5000 

0.4960 

0.4920 

0.4880 

0.4840 

0.4801 

0.4761 

0.4721 

0.4681 

0.4641 
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Tabla A. 3 (continuacion) Areas bajo la curva normal 


z 

.00 

.01 

.02 

.03 

.04 

.05 

.06 

.07 

.08 

.09 

0.0 

0.5000 

0.5040 

0.5080 

0.5120 

0.5160 

0.5199 

0.5239 

0.5279 

0.5319 

0.5359 

0.1 

0.5398 

0.5438 

0.5478 

0.5517 

0.5557 

0.5596 

0.5636 

0.5675 

0.5714 

0.5753 

0.2 

0.5793 

0.5832 

0.5871 

0.5910 

0.5948 

0.5987 

0.6026 

0.6064 

0.6103 

0.6141 

0.3 

0.6179 

0.6217 

0.6255 

0.6293 

0.6331 

0.6368 

0.6406 

0.6443 

0.6480 

0.6517 

0.4 

0.6554 

0.6591 

0.6628 

0.6664 

0.6700 

0.6736 

0.6772 

0.6808 

0.6844 

0.6879 

0.5 

0.6915 

0.6950 

0.6985 

0.7019 

0.7054 

0.7088 

0.7123 

0.7157 

0.7190 

0.7224 

0.6 

0.7257 

0.7291 

0.7324 

0.7357 

0.7389 

0.7422 

0.7454 

0.7486 

0.7517 

0.7549 

0.7 

0.7580 

0.7611 

0.7642 

0.7673 

0.7704 

0.7734 

0.7764 

0.7794 

0.7823 

0.7852 

0.8 

0.7881 

0.7910 

0.7939 

0.7967 

0.7995 

0.8023 

0.8051 

0.8078 

0.8106 

0.8133 

0.9 

0.8159 

0.8186 

0.8212 

0.8238 

0.8264 

0.8289 

0.8315 

0.8340 

0.8365 

0.8389 

1.0 

0.8413 

0.8438 

0.8461 

0.8485 

0.8508 

0.8531 

0.8554 

0.8577 

0.8599 

0.8621 

1.1 

0.8643 

0.8665 

0.8686 

0.8708 

0.8729 

0.8749 

0.8770 

0.8790 

0.8810 

0.8830 

1.2 

0.8849 

0.8869 

0.8888 

0.8907 

0.8925 

0.8944 

0.8962 

0.8980 

0.8997 

0.9015 

1.3 

0.9032 

0.9049 

0.9066 

0.9082 

0.9099 

0.9115 

0.9131 

0.9147 

0.9162 

0.9177 

1.4 

0.9192 

0.9207 

0.9222 

0.9236 

0.9251 

0.9265 

0.9279 

0.9292 

0.9306 

0.9319 

1.5 

0.9332 

0.9345 

0.9357 

0.9370 

0.9382 

0.9394 

0.9406 

0.9418 

0.9429 

0.9441 

1.6 

0.9452 

0.9463 

0.9474 

0.9484 

0.9495 

0.9505 

0.9515 

0.9525 

0.9535 

0.9545 

1.7 

0.9554 

0.9564 

0.9573 

0.9582 

0.9591 

0.9599 

0.9608 

0.9616 

0.9625 

0.9633 

1.8 

0.9641 

0.9649 

0.9656 

0.9664 

0.9671 

0.9678 

0.9686 

0.9693 

0.9699 

0.9706 

1.9 

0.9713 

0.9719 

0.9726 

0.9732 

0.9738 

0.9744 

0.9750 

0.9756 

0.9761 

0.9767 

2.0 

0.9772 

0.9778 

0.9783 

0.9788 

0.9793 

0.9798 

0.9803 

0.9808 

0.9812 

0.9817 

2.1 

0.9821 

0.9826 

0.9830 

0.9834 

0.9838 

0.9842 

0.9846 

0.9850 

0.9854 

0.9857 

2.2 

0.9861 

0.9864 

0.9868 

0.9871 

0.9875 

0.9878 

0.9881 

0.9884 

0.9887 

0.9890 

2.3 

0.9893 

0.9896 

0.9898 

0.9901 

0.9904 

0.9906 

0.9909 

0.9911 

0.9913 

0.9916 

2.4 

0.9918 

0.9920 

0.9922 

0.9925 

0.9927 

0.9929 

0.9931 

0.9932 

0.9934 

0.9936 

2.5 

0.9938 

0.9940 

0.9941 

0.9943 

0.9945 

0.9946 

0.9948 

0.9949 

0.9951 

0.9952 

2.6 

0.9953 

0.9955 

0.9956 

0.9957 

0.9959 

0.9960 

0.9961 

0.9962 

0.9963 

0.9964 

2.7 

0.9965 

0.9966 

0.9967 

0.9968 

0.9969 

0.9970 

0.9971 

0.9972 

0.9973 

0.9974 

2.8 

0.9974 

0.9975 

0.9976 

0.9977 

0.9977 

0.9978 

0.9979 

0.9979 

0.9980 

0.9981 

2.9 

0.9981 

0.9982 

0.9982 

0.9983 

0.9984 

0.9984 

0.9985 

0.9985 

0.9986 

0.9986 

3.0 

0.9987 

0.9987 

0.9987 

0.9988 

0.9988 

0.9989 

0.9989 

0.9989 

0.9990 

0.9990 

3.1 

0.9990 

0.9991 

0.9991 

0.9991 

0.9992 

0.9992 

0.9992 

0.9992 

0.9993 

0.9993 

3.2 

0.9993 

0.9993 

0.9994 

0.9994 

0.9994 

0.9994 

0.9994 

0.9995 

0.9995 

0.9995 

3.3 

0.9995 

0.9995 

0.9995 

0.9996 

0.9996 

0.9996 

0.9996 

0.9996 

0.9996 

0.9997 

3.4 

0.9997 

0.9997 

0.9997 

0.9997 

0.9997 

0.9997 

0.9997 

0.9997 

0.9997 

0.9998 
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Tabla A.4 Valores criticos de la distribucion t 



OL 


V 

0.40 

0.30 

0.20 

1 

0.325 

0.727 

1.376 

2 

0.289 

0.617 

1.061 

3 

0.277 

0.584 

0.978 

4 

0.271 

0.569 

0.941 

5 

0.267 

0.559 

0.920 

6 

0.265 

0.553 

0.906 

7 

0.263 

0.549 

0.896 

8 

0.262 

0.546 

0.889 

9 

0.261 

0.543 

0.883 

10 

0.260 

0.542 

0.879 

11 

0.260 

0.540 

0.876 

12 

0.259 

0.539 

0.873 

13 

0.259 

0.538 

0.870 

14 

0.258 

0.537 

0.868 

15 

0.258 

0.536 

0.866 

16 

0.258 

0.535 

0.865 

17 

0.257 

0.534 

0.863 

18 

0.257 

0.534 

0.862 

19 

0.257 

0.533 

0.861 

20 

0.257 

0.533 

0.860 

21 

0.257 

0.532 

0.859 

22 

0.256 

0.532 

0.858 

23 

0.256 

0.532 

0.858 

24 

0.256 

0.531 

0.857 

25 

0.256 

0.531 

0.856 

26 

0.256 

0.531 

0.856 

27 

0.256 

0.531 

0.855 

28 

0.256 

0.530 

0.855 

29 

0.256 

0.530 

0.854 

30 

0.256 

0.530 

0.854 

40 

0.255 

0.529 

0.851 

60 

0.254 

0.527 

0.848 

120 

0.254 

0.526 

0.845 

oo 

0.253 

0.524 

0.842 


0.15 

0.10 

0.05 

0.025 

1.963 

3.078 

6.314 

12.706 

1.386 

1.886 

2.920 

4.303 

1.250 

1.638 

2.353 

3.182 

1.190 

1.533 

2.132 

2.776 

1.156 

1.476 

2.015 

2.571 

1.134 

1.440 

1.943 

2.447 

1.119 

1.415 

1.895 

2.365 

1.108 

1.397 

1.860 

2.306 

1.100 

1.383 

1.833 

2.262 

1.093 

1.372 

1.812 

2.228 

1.088 

1.363 

1.796 

2.201 

1.083 

1.356 

1.782 

2.179 

1.079 

1.350 

1.771 

2.160 

1.076 

1.345 

1.761 

2.145 

1.074 

1.341 

1.753 

2.131 

1.071 

1.337 

1.746 

2.120 

1.069 

1.333 

1.740 

2.110 

1.067 

1.330 

1.734 

2.101 

1.066 

1.328 

1.729 

2.093 

1.064 

1.325 

1.725 

2.086 

1.063 

1.323 

1.721 

2.080 

1.061 

1.321 

1.717 

2.074 

1.060 

1.319 

1.714 

2.069 

1.059 

1.318 

1.711 

2.064 

1.058 

1.316 

1.708 

2.060 

1.058 

1.315 

1.706 

2.056 

1.057 

1.314 

1.703 

2.052 

1.056 

1.313 

1.701 

2.048 

1.055 

1.311 

1.699 

2.045 

1.055 

1.310 

1.697 

2.042 

1.050 

1.303 

1.684 

2.021 

1.045 

1.296 

1.671 

2.000 

1.041 

1.289 

1.658 

1.980 

1.036 

1.282 

1.645 

1.960 
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Tabla A. 4 (continuation) Valores crfticos de la distribution t 


a 


V 

0.02 

0.015 

0.01 

0.0075 

0.005 

0.0025 

0.0005 

1 

15.894 

21.205 

31.821 

42.433 

63.656 

127.321 

636.578 

2 

4.849 

5.643 

6.965 

8.073 

9.925 

14.089 

31.600 

3 

3.482 

3.896 

4.541 

5.047 

5.841 

7.453 

12.924 

4 

2.999 

3.298 

3.747 

4.088 

4.604 

5.598 

8.610 

5 

2.757 

3.003 

3.365 

3.634 

4.032 

4.773 

6.869 

6 

2.612 

2.829 

3.143 

3.372 

3.707 

4.317 

5.959 

7 

2.517 

2.715 

2.998 

3.203 

3.499 

4.029 

5.408 

8 

2.449 

2.634 

2.896 

3.085 

3.355 

3.833 

5.041 

9 

2.398 

2.574 

2.821 

2.998 

3.250 

3.690 

4.781 

10 

2.359 

2.527 

2.764 

2.932 

3.169 

3.581 

4.587 

11 

2.328 

2.491 

2.718 

2.879 

3.106 

3.497 

4.437 

12 

2.303 

2.461 

2.681 

2.836 

3.055 

3.428 

4.318 

13 

2.282 

2.436 

2.650 

2.801 

3.012 

3.372 

4.221 

14 

2.264 

2.415 

2.624 

2.771 

2.977 

3.326 

4.140 

15 

2.249 

2.397 

2.602 

2.746 

2.947 

3.286 

4.073 

16 

2.235 

2.382 

2.583 

2.724 

2.921 

3.252 

4.015 

17 

2.224 

2.368 

2.567 

2.706 

2.898 

3.222 

3.965 

18 

2.214 

2.356 

2.552 

2.689 

2.878 

3.197 

3.922 

19 

2.205 

2.346 

2.539 

2.674 

2.861 

3.174 

3.883 

20 

2.197 

2.336 

2.528 

2.661 

2.845 

3.153 

3.850 

21 

2.189 

2.328 

2.518 

2.649 

2.831 

3.135 

3.819 

22 

2.183 

2.320 

2.508 

2.639 

2.819 

3.119 

3.792 

23 

2.177 

2.313 

2.500 

2.629 

2.807 

3.104 

3.768 

24 

2.172 

2.307 

2.492 

2.620 

2.797 

3.091 

3.745 

25 

2.167 

2.301 

2.485 

2.612 

2.787 

3.078 

3.725 

26 

2.162 

2.296 

2.479 

2.605 

2.779 

3.067 

3.707 

27 

2.158 

2.291 

2.473 

2.598 

2.771 

3.057 

3.689 

28 

2.154 

2.286 

2.467 

2.592 

2.763 

3.047 

3.674 

29 

2.150 

2.282 

2.462 

2.586 

2.756 

3.038 

3.660 

30 

2.147 

2.278 

2.457 

2.581 

2.750 

3.030 

3.646 

40 

2.123 

2.250 

2.423 

2.542 

2.704 

2.971 

3.551 

60 

2.099 

2.223 

2.390 

2.504 

2.660 

2.915 

3.460 

120 

2.076 

2.196 

2.358 

2.468 

2.617 

2.860 

3.373 

oo 

2.054 

2.170 

2.326 

2.432 

2.576 

2.807 

3.290 
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Tabla A. 5 Valores criticos de la distribucion chi cuadrada 



a 


V 

0.995 

0.99 

0.98 

0.975 

0.95 

0.90 

0.80 

0.75 

0.70 

0.50 

1 

0 . 0 4 393 

0 . 0 3 157 

0 . 0 3 628 

0 . 0 3 982 

0.00393 

0.0158 

0.0642 

0.102 

0.148 

0.455 

2 

0.0100 

0.0201 

0.0404 

0.0506 

0.103 

0.211 

0.446 

0.575 

0.713 

1.386 

3 

0.0717 

0.115 

0.185 

0.216 

0.352 

0.584 

1.005 

1.213 

1.424 

2.366 

4 

0.207 

0.297 

0.429 

0.484 

0.711 

1.064 

1.649 

1.923 

2.195 

3.357 

5 

0.412 

0.554 

0.752 

0.831 

1.145 

1.610 

2.343 

2.675 

3.000 

4.351 

6 

0.676 

0.872 

1.134 

1.237 

1.635 

2.204 

3.070 

3.455 

3.828 

5.348 

7 

0.989 

1.239 

1.564 

1.690 

2.167 

2.833 

3.822 

4.255 

4.671 

6.346 

8 

1.344 

1.647 

2.032 

2.180 

2.733 

3.490 

4.594 

5.071 

5.527 

7.344 

9 

1.735 

2.088 

2.532 

2.700 

3.325 

4.168 

5.380 

5.899 

6.393 

8.343 

10 

2.156 

2.558 

3.059 

3.247 

3.940 

4.865 

6.179 

6.737 

7.267 

9.342 

11 

2.603 

3.053 

3.609 

3.816 

4.575 

5.578 

6.989 

7.584 

8.148 

10.341 

12 

3.074 

3.571 

4.178 

4.404 

5.226 

6.304 

7.807 

8.438 

9.034 

11.340 

13 

3.565 

4.107 

4.765 

5.009 

5.892 

7.041 

8.634 

9.299 

9.926 

12.340 

14 

4.075 

4.660 

5.368 

5.629 

6.571 

7.790 

9.467 

10.165 

10.821 

13.339 

15 

4.601 

5.229 

5.985 

6.262 

7.261 

8.547 

10.307 

11.037 

11.721 

14.339 

16 

5.142 

5.812 

6.614 

6.908 

7.962 

9.312 

11.152 

11.912 

12.624 

15.338 

17 

5.697 

6.408 

7.255 

7.564 

8.672 

10.085 

12.002 

12.792 

13.531 

16.338 

18 

6.265 

7.015 

7.906 

8.231 

9.390 

10.865 

12.857 

13.675 

14.440 

17.338 

19 

6.844 

7.633 

8.567 

8.907 

10.117 

11.651 

13.716 

14.562 

15.352 

18.338 

20 

7.434 

8.260 

9.237 

9.591 

10.851 

12.443 

14.578 

15.452 

16.266 

19.337 

21 

8.034 

8.897 

9.915 

10.283 

11.591 

13.240 

15.445 

16.344 

17.182 

20.337 

22 

8.643 

9.542 

10.600 

10.982 

12.338 

14.041 

16.314 

17.240 

18.101 

21.337 

23 

9.260 

10.196 

11.293 

11.689 

13.091 

14.848 

17.187 

18.137 

19.021 

22.337 

24 

9.886 

10.856 

11.992 

12.401 

13.848 

15.659 

18.062 

19.037 

19.943 

23.337 

25 

10.520 

11.524 

12.697 

13.120 

14.611 

16.473 

18.940 

19.939 

20.867 

24.337 

26 

11.160 

12.198 

13.409 

13.844 

15.379 

17.292 

19.820 

20.843 

21.792 

25.336 

27 

11.808 

12.878 

14.125 

14.573 

16.151 

18.114 

20.703 

21.749 

22.719 

26.336 

28 

12.461 

13.565 

14.847 

15.308 

16.928 

18.939 

21.588 

22.657 

23.647 

27.336 

29 

13.121 

14.256 

15.574 

16.047 

17.708 

19.768 

22.475 

23.567 

24.577 

28.336 

30 

13.787 

14.953 

16.306 

16.791 

18.493 

20.599 

23.364 

24.478 

25.508 

29.336 

40 

20.707 

22.164 

23.838 

24.433 

26.509 

29.051 

32.345 

33.66 

34.872 

39.335 

50 

27.991 

29.707 

31.664 

32.357 

34.764 

37.689 

41.449 

42.942 

44.313 

49.335 

60 

35.534 

37.485 

39.699 

40.482 

43.188 

46.459 

50.641 

52.294 

53.809 

59.335 
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Tabla A. 5 (continuation) Valores cri'ticos de la distribution chi cuadrada 


OL 


V 

0.30 

0.25 

0.20 

0.10 

0.05 

0.025 

0.02 

0.01 

0.005 

0.001 

1 

1.074 

1.323 

1.642 

2.706 

3.841 

5.024 

5.412 

6.635 

7.879 

10.827 

2 

2.408 

2.773 

3.219 

4.605 

5.991 

7.378 

7.824 

9.210 

10.597 

13.815 

3 

3.665 

4.108 

4.642 

6.251 

7.815 

9.348 

9.837 

11.345 

12.838 

16.266 

4 

4.878 

5.385 

5.989 

7.779 

9.488 

11.143 

11.668 

13.277 

14.860 

18.466 

5 

6.064 

6.626 

7.289 

9.236 

11.070 

12.832 

13.388 

15.086 

16.750 

20.515 

6 

7.231 

7.841 

8.558 

10.645 

12.592 

14.449 

15.033 

16.812 

18.548 

22.457 

7 

8.383 

9.037 

9.803 

12.017 

14.067 

16.013 

16.622 

18.475 

20.278 

24.321 

8 

9.524 

10.219 

11.030 

13.362 

15.507 

17.535 

18.168 

20.090 

21.955 

26.124 

9 

10.656 

11.389 

12.242 

14.684 

16.919 

19.023 

19.679 

21.666 

23.589 

27.877 

10 

11.781 

12.549 

13.442 

15.987 

18.307 

20.483 

21.161 

23.209 

25.188 

29.588 

11 

12.899 

13.701 

14.631 

17.275 

19.675 

21.920 

22.618 

24.725 

26.757 

31.264 

12 

14.011 

14.845 

15.812 

18.549 

21.026 

23.337 

24.054 

26.217 

28.300 

32.909 

13 

15.119 

15.984 

16.985 

19.812 

22.362 

24.736 

25.471 

27.688 

29.819 

34.527 

14 

16.222 

17.117 

18.151 

21.064 

23.685 

26.119 

26.873 

29.141 

31.319 

36.124 

15 

17.322 

18.245 

19.311 

22.307 

24.996 

27.488 

28.259 

30.578 

32.801 

37.698 

16 

18.418 

19.369 

20.465 

23.542 

26.296 

28.845 

29.633 

32.000 

34.267 

39.252 

17 

19.511 

20.489 

21.615 

24.769 

27.587 

30.191 

30.995 

33.409 

35.718 

40.791 

18 

20.601 

21.605 

22.760 

25.989 

28.869 

31.526 

32.346 

34.805 

37.156 

42.312 

19 

21.689 

22.718 

23.900 

27.204 

30.144 

32.852 

33.687 

36.191 

38.582 

43.819 

20 

22.775 

23.828 

25.038 

28.412 

31.410 

34.170 

35.020 

37.566 

39.997 

45.314 

21 

23.858 

24.935 

26.171 

29.615 

32.671 

35.479 

36.343 

38.932 

41.401 

46.796 

22 

24.939 

26.039 

27.301 

30.813 

33.924 

36.781 

37.659 

40.289 

42.796 

48.268 

23 

26.018 

27.141 

28.429 

32.007 

35.172 

38.076 

38.968 

41.638 

44.181 

49.728 

24 

27.096 

28.241 

29.553 

33.196 

36.415 

39.364 

40.270 

42.980 

45.558 

51.179 

25 

28.172 

29.339 

30.675 

34.382 

37.652 

40.646 

41.566 

44.314 

46.928 

52.619 

26 

29.246 

30.435 

31.795 

35.563 

38.885 

41.923 

42.856 

45.642 

48.290 

54.051 

27 

30.319 

31.528 

32.912 

36.741 

40.113 

43.195 

44.140 

46.963 

49.645 

55.475 

28 

31.391 

32.620 

34.027 

37.916 

41.337 

44.461 

45.419 

48.278 

50.994 

56.892 

29 

32.461 

33.711 

35.139 

39.087 

42.557 

45.722 

46.693 

49.588 

52.335 

58.301 

30 

33.530 

34.800 

36.250 

40.256 

43.773 

46.979 

47.962 

50.892 

53.672 

59.702 

40 

44.165 

45.616 

47.269 

51.805 

55.758 

59.342 

60.436 

63.691 

66.766 

73.403 

50 

54.723 

56.334 

58.164 

63.167 

67.505 

71.420 

72.613 

76.154 

79.490 

86.660 

60 

65.226 

66.981 

68.972 

74.397 

79.082 

83.298 

84.58 

88.379 

91.952 

99.608 
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Tabla A. 6* Valores crfticos de la distribucion F 


V-2 





/o. 05 (^ 1 , v 2 ) 





1 

2 

3 

4 

5 

6 

7 

8 

9 

1 

161.45 

199.50 

215.71 

224.58 

230.16 

233.99 

236.77 

238.88 

240.54 

2 

18.51 

19.00 

19.16 

19.25 

19.30 

19.33 

19.35 

19.37 

19.38 

3 

10.13 

9.55 

9.28 

9.12 

9.01 

8.94 

8.89 

8.85 

8.81 

4 

7.71 

6.94 

6.59 

6.39 

6.26 

6.16 

6.09 

6.04 

6.00 

5 

6.61 

5.79 

5.41 

5.19 

5.05 

4.95 

4.88 

4.82 

4.77 

6 

5.99 

5.14 

4.76 

4.53 

4.39 

4.28 

4.21 

4.15 

4.10 

7 

5.59 

4.74 

4.35 

4.12 

3.97 

3.87 

3.79 

3.73 

3.68 

8 

5.32 

4.46 

4.07 

3.84 

3.69 

3.58 

3.50 

3.44 

3.39 

9 

5.12 

4.26 

3.86 

3.63 

3.48 

3.37 

3.29 

3.23 

3.18 

10 

4.96 

4.10 

3.71 

3.48 

3.33 

3.22 

3.14 

3.07 

3.02 

11 

4.84 

3.98 

3.59 

3.36 

3.20 

3.09 

3.01 

2.95 

2.90 

12 

4.75 

3.89 

3.49 

3.26 

3.11 

3.00 

2.91 

2.85 

2.80 

13 

4.67 

3.81 

3.41 

3.18 

3.03 

2.92 

2.83 

2.77 

2.71 

14 

4.60 

3.74 

3.34 

3.11 

2.96 

2.85 

2.76 

2.70 

2.65 

15 

4.54 

3.68 

3.29 

3.06 

2.90 

2.79 

2.71 

2.64 

2.59 

16 

4.49 

3.63 

3.24 

3.01 

2.85 

2.74 

2.66 

2.59 

2.54 

17 

4.45 

3.59 

3.20 

2.96 

2.81 

2.70 

2.61 

2.55 

2.49 

18 

4.41 

3.55 

3.16 

2.93 

2.77 

2.66 

2.58 

2.51 

2.46 

19 

4.38 

3.52 

3.13 

2.90 

2.74 

2.63 

2.54 

2.48 

2.42 

20 

4.35 

3.49 

3.10 

2.87 

2.71 

2.60 

2.51 

2.45 

2.39 

21 

4.32 

3.47 

3.07 

2.84 

2.68 

2.57 

2.49 

2.42 

2.37 

22 

4.30 

3.44 

3.05 

2.82 

2.66 

2.55 

2.46 

2.40 

2.34 

23 

4.28 

3.42 

3.03 

2.80 

2.64 

2.53 

2.44 

2.37 

2.32 

24 

4.26 

3.40 

3.01 

2.78 

2.62 

2.51 

2.42 

2.36 

2.30 

25 

4.24 

3.39 

2.99 

2.76 

2.60 

2.49 

2.40 

2.34 

2.28 

26 

4.23 

3.37 

2.98 

2.74 

2.59 

2.47 

2.39 

2.32 

2.27 

27 

4.21 

3.35 

2.96 

2.73 

2.57 

2.46 

2.37 

2.31 

2.25 

28 

4.20 

3.34 

2.95 

2.71 

2.56 

2.45 

2.36 

2.29 

2.24 

29 

4.18 

3.33 

2.93 

2.70 

2.55 

2.43 

2.35 

2.28 

2.22 

30 

4.17 

3.32 

2.92 

2.69 

2.53 

2.42 

2.33 

2.27 

2.21 

40 

4.08 

3.23 

2.84 

2.61 

2.45 

2.34 

2.25 

2.18 

2.12 

60 

4.00 

3.15 

2.76 

2.53 

2.37 

2.25 

2.17 

2.10 

2.04 

120 

3.92 

3.07 

2.68 

2.45 

2.29 

2.18 

2.09 

2.02 

1.96 

OO 

3.84 

3.00 

2.60 

2.37 

2.21 

2.10 

2.01 

1.94 

1.88 


*Reproducida de la tabla 18 de Biometrika Tables for Statisticians, vol. 1, con autorizacion 
de E. S. Pearson y Biometrika Trustees. 
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Tabla A. 6 (continuation) Valores crfticos de la distribution F 


/ o . 05(^11 v 2 ) 


V 2 

10 

12 

15 

20 

24 

30 

40 

60 

120 

OO 

1 

241.88 

243.91 

245.95 

248.01 

249.05 

250.10 

251.14 

252.20 

253.25 

254.31 

2 

19.40 

19.41 

19.43 

19.45 

19.45 

19.46 

19.47 

19.48 

19.49 

19.50 

3 

8.79 

8.74 

8.70 

8.66 

8.64 

8.62 

8.59 

8.57 

8.55 

8.53 

4 

5.96 

5.91 

5.86 

5.80 

5.77 

5.75 

5.72 

5.69 

5.66 

5.63 

5 

4.74 

4.68 

4.62 

4.56 

4.53 

4.50 

4.46 

4.43 

4.40 

4.36 

6 

4.06 

4.00 

3.94 

3.87 

3.84 

3.81 

3.77 

3.74 

3.70 

3.67 

7 

3.64 

3.57 

3.51 

3.44 

3.41 

3.38 

3.34 

3.30 

3.27 

3.23 

8 

3.35 

3.28 

3.22 

3.15 

3.12 

3.08 

3.04 

3.01 

2.97 

2.93 

9 

3.14 

3.07 

3.01 

2.94 

2.90 

2.86 

2.83 

2.79 

2.75 

2.71 

10 

2.98 

2.91 

2.85 

2.77 

2.74 

2.70 

2.66 

2.62 

2.58 

2.54 

11 

2.85 

2.79 

2.72 

2.65 

2.61 

2.57 

2.53 

2.49 

2.45 

2.40 

12 

2.75 

2.69 

2.62 

2.54 

2.51 

2.47 

2.43 

2.38 

2.34 

2.30 

13 

2.67 

2.60 

2.53 

2.46 

2.42 

2.38 

2.34 

2.30 

2.25 

2.21 

14 

2.60 

2.53 

2.46 

2.39 

2.35 

2.31 

2.27 

2.22 

2.18 

2.13 

15 

2.54 

2.48 

2.40 

2.33 

2.29 

2.25 

2.20 

2.16 

2.11 

2.07 

16 

2.49 

2.42 

2.35 

2.28 

2.24 

2.19 

2.15 

2.11 

2.06 

2.01 

17 

2.45 

2.38 

2.31 

2.23 

2.19 

2.15 

2.10 

2.06 

2.01 

1.96 

18 

2.41 

2.34 

2.27 

2.19 

2.15 

2.11 

2.06 

2.02 

1.97 

1.92 

19 

2.38 

2.31 

2.23 

2.16 

2.11 

2.07 

2.03 

1.98 

1.93 

1.88 

20 

2.35 

2.28 

2.20 

2.12 

2.08 

2.04 

1.99 

1.95 

1.90 

1.84 

21 

2.32 

2.25 

2.18 

2.10 

2.05 

2.01 

1.96 

1.92 

1.87 

1.81 

22 

2.30 

2.23 

2.15 

2.07 

2.03 

1.98 

1.94 

1.89 

1.84 

1.78 

23 

2.27 

2.20 

2.13 

2.05 

2.01 

1.96 

1.91 

1.86 

1.81 

1.76 

24 

2.25 

2.18 

2.11 

2.03 

1.98 

1.94 

1.89 

1.84 

1.79 

1.73 

25 

2.24 

2.16 

2.09 

2.01 

1.96 

1.92 

1.87 

1.82 

1.77 

1.71 

26 

2.22 

2.15 

2.07 

1.99 

1.95 

1.90 

1.85 

1.80 

1.75 

1.69 

27 

2.20 

2.13 

2.06 

1.97 

1.93 

1.88 

1.84 

1.79 

1.73 

1.67 

28 

2.19 

2.12 

2.04 

1.96 

1.91 

1.87 

1.82 

1.77 

1.71 

1.65 

29 

2.18 

2.10 

2.03 

1.94 

1.90 

1.85 

1.81 

1.75 

1.70 

1.64 

30 

2.16 

2.09 

2.01 

1.93 

1.89 

1.84 

1.79 

1.74 

1.68 

1.62 

40 

2.08 

2.00 

1.92 

1.84 

1.79 

1.74 

1.69 

1.64 

1.58 

1.51 

60 

1.99 

1.92 

1.84 

1.75 

1.70 

1.65 

1.59 

1.53 

1.47 

1.39 

120 

1.91 

1.83 

1.75 

1.66 

1.61 

1.55 

1.50 

1.43 

1.35 

1.25 

00 

1.83 

1.75 

1.67 

1.57 

1.52 

1.46 

1.39 

1.32 

1.22 

1.00 
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Tab la A. 6 (continuation) Valores criticos de la distribution F 


V2 





fo.oi(vi, v 2 ) 





1 

2 

3 

4 

5 

6 

7 

8 

9 

1 

4052.18 

4999.50 

5403.35 

5624.58 

5763.65 

5858.99 

5928.36 

5981.07 

6022.47 

2 

98.50 

99.00 

99.17 

99.25 

99.30 

99.33 

99.36 

99.37 

99.39 

3 

34.12 

30.82 

29.46 

28.71 

28.24 

27.91 

27.67 

27.49 

27.35 

4 

21.20 

18.00 

16.69 

15.98 

15.52 

15.21 

14.98 

14.80 

14.66 

5 

16.26 

13.27 

12.06 

11.39 

10.97 

10.67 

10.46 

10.29 

10.16 

6 

13.75 

10.92 

9.78 

9.15 

8.75 

8.47 

8.26 

8.10 

7.98 

7 

12.25 

9.55 

8.45 

7.85 

7.46 

7.19 

6.99 

6.84 

6.72 

8 

11.26 

8.65 

7.59 

7.01 

6.63 

6.37 

6.18 

6.03 

5.91 

9 

10.56 

8.02 

6.99 

6.42 

6.06 

5.80 

5.61 

5.47 

5.35 

10 

10.04 

7.56 

6.55 

5.99 

5.64 

5.39 

5.20 

5.06 

4.94 

11 

9.65 

7.21 

6.22 

5.67 

5.32 

5.07 

4.89 

4.74 

4.63 

12 

9.33 

6.93 

5.95 

5.41 

5.06 

4.82 

4.64 

4.50 

4.39 

13 

9.07 

6.70 

5.74 

5.21 

4.86 

4.62 

4.44 

4.30 

4.19 

14 

8.86 

6.51 

5.56 

5.04 

4.69 

4.46 

4.28 

4.14 

4.03 

15 

8.68 

6.36 

5.42 

4.89 

4.56 

4.32 

4.14 

4.00 

3.89 

16 

8.53 

6.23 

5.29 

4.77 

4.44 

4.20 

4.03 

3.89 

3.78 

17 

8.40 

6.11 

5.18 

4.67 

4.34 

4.10 

3.93 

3.79 

3.68 

18 

8.29 

6.01 

5.09 

4.58 

4.25 

4.01 

3.84 

3.71 

3.60 

19 

8.18 

5.93 

5.01 

4.50 

4.17 

3.94 

3.77 

3.63 

3.52 

20 

8.10 

5.85 

4.94 

4.43 

4.10 

3.87 

3.70 

3.56 

3.46 

21 

8.02 

5.78 

4.87 

4.37 

4.04 

3.81 

3.64 

3.51 

3.40 

22 

7.95 

5.72 

4.82 

4.31 

3.99 

3.76 

3.59 

3.45 

3.35 

23 

7.88 

5.66 

4.76 

4.26 

3.94 

3.71 

3.54 

3.41 

3.30 

24 

7.82 

5.61 

4.72 

4.22 

3.90 

3.67 

3.50 

3.36 

3.26 

25 

7.77 

5.57 

4.68 

4.18 

3.85 

3.63 

3.46 

3.32 

3.22 

26 

7.72 

5.53 

4.64 

4.14 

3.82 

3.59 

3.42 

3.29 

3.18 

27 

7.68 

5.49 

4.60 

4.11 

3.78 

3.56 

3.39 

3.26 

3.15 

28 

7.64 

5.45 

4.57 

4.07 

3.75 

3.53 

3.36 

3.23 

3.12 

29 

7.60 

5.42 

4.54 

4.04 

3.73 

3.50 

3.33 

3.20 

3.09 

30 

7.56 

5.39 

4.51 

4.02 

3.70 

3.47 

3.30 

3.17 

3.07 

40 

7.31 

5.18 

4.31 

3.83 

3.51 

3.29 

3.12 

2.99 

2.89 

60 

7.08 

4.98 

4.13 

3.65 

3.34 

3.12 

2.95 

2.82 

2.72 

120 

6.85 

4.79 

3.95 

3.48 

3.17 

2.96 

2.79 

2.66 

2.56 

oo 

6.63 

4.61 

3.78 

3.32 

3.02 

2.80 

2.64 

2.51 

2.41 
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Apendice A Tablas y pruebas estadisticas 


Tabla A. 6 (continuation) Valores cri'ticos de la distribution F 


fo.oijvi, tti) 


V2 

10 

12 

15 

20 

24 

30 

40 

60 

120 

OO 

1 

6055.85 

6106.32 

6157.28 

6208.73 

6234.63 

6260.65 

6286.78 

6313.03 

6339.39 

6365.86 

2 

99.40 

99.42 

99.43 

99.45 

99.46 

99.47 

99.47 

99.48 

99.49 

99.50 

3 

27.23 

27.05 

26.87 

26.69 

26.60 

26.50 

26.41 

26.32 

26.22 

26.13 

4 

14.55 

14.37 

14.20 

14.02 

13.93 

13.84 

13.75 

13.65 

13.56 

13.46 

5 

10.05 

9.89 

9.72 

9.55 

9.47 

9.38 

9.29 

9.20 

9.11 

9.02 

6 

7.87 

7.72 

7.56 

7.40 

7.31 

7.23 

7.14 

7.06 

6.97 

6.88 

7 

6.62 

6.47 

6.31 

6.16 

6.07 

5.99 

5.91 

5.82 

5.74 

5.65 

8 

5.81 

5.67 

5.52 

5.36 

5.28 

5.20 

5.12 

5.03 

4.95 

4.86 

9 

5.26 

5.11 

4.96 

4.81 

4.73 

4.65 

4.57 

4.48 

4.40 

4.31 

10 

4.85 

4.71 

4.56 

4.41 

4.33 

4.25 

4.17 

4.08 

4.00 

3.91 

11 

4.54 

4.40 

4.25 

4.10 

4.02 

3.94 

3.86 

3.78 

3.69 

3.60 

12 

4.30 

4.16 

4.01 

3.86 

3.78 

3.70 

3.62 

3.54 

3.45 

3.36 

13 

4.10 

3.96 

3.82 

3.66 

3.59 

3.51 

3.43 

3.34 

3.25 

3.17 

14 

3.94 

3.80 

3.66 

3.51 

3.43 

3.35 

3.27 

3.18 

3.09 

3.00 

15 

3.80 

3.67 

3.52 

3.37 

3.29 

3.21 

3.13 

3.05 

2.96 

2.87 

16 

3.69 

3.55 

3.41 

3.26 

3.18 

3.10 

3.02 

2.93 

2.84 

2.75 

17 

3.59 

3.46 

3.31 

3.16 

3.08 

3.00 

2.92 

2.83 

2.75 

2.65 

18 

3.51 

3.37 

3.23 

3.08 

3.00 

2.92 

2.84 

2.75 

2.66 

2.57 

19 

3.43 

3.30 

3.15 

3.00 

2.92 

2.84 

2.76 

2.67 

2.58 

2.49 

20 

3.37 

3.23 

3.09 

2.94 

2.86 

2.78 

2.69 

2.61 

2.52 

2.42 

21 

3.31 

3.17 

3.03 

2.88 

2.80 

2.72 

2.64 

2.55 

2.46 

2.36 

22 

3.26 

3.12 

2.98 

2.83 

2.75 

2.67 

2.58 

2.50 

2.40 

2.31 

23 

3.21 

3.07 

2.93 

2.78 

2.70 

2.62 

2.54 

2.45 

2.35 

2.26 

24 

3.17 

3.03 

2.89 

2.74 

2.66 

2.58 

2.49 

2.40 

2.31 

2.21 

25 

3.13 

2.99 

2.85 

2.70 

2.62 

2.54 

2.45 

2.36 

2.27 

2.17 

26 

3.09 

2.96 

2.81 

2.66 

2.58 

2.50 

2.42 

2.33 

2.23 

2.13 

27 

3.06 

2.93 

2.78 

2.63 

2.55 

2.47 

2.38 

2.29 

2.20 

2.10 

28 

3.03 

2.90 

2.75 

2.60 

2.52 

2.44 

2.35 

2.26 

2.17 

2.06 

29 

3.00 

2.87 

2.73 

2.57 

2.49 

2.41 

2.33 

2.23 

2.14 

2.03 

30 

2.98 

2.84 

2.70 

2.55 

2.47 

2.39 

2.30 

2.21 

2.11 

2.01 

40 

2.80 

2.66 

2.52 

2.37 

2.29 

2.20 

2.11 

2.02 

1.92 

1.80 

60 

2.63 

2.50 

2.35 

2.20 

2.12 

2.03 

1.94 

1.84 

1.73 

1.60 

120 

2.47 

2.34 

2.19 

2.03 

1.95 

1.86 

1.76 

1.66 

1.53 

1.38 

oo 

2.32 

2.18 

2.04 

1.88 

1.79 

1.70 

1.59 

1.47 

1.32 

1.00 



Tabla A. 7 Factores de tolerancia para distrihuciones normales 761 
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Apendice A Tablas y pruebas estadlsticas 


Tabla A. 8* Tamano muestral para la prueba t de la media 


Nivel de la prueba t 


Prueba unilateral 

ot — 0.005 

a = 0.01 

a = 0.025 

a — 0.05 

Prueba bilateral 

a = 0.01 

a = 0.02 

a = 0.05 

a = 0.1 


(3 

= 0.1 

.01 

.05 

.1 

.2 

.5 .01 .05 

.1 

.2 

.5 

.01 

.05 

.1 

.2 

.5 .01 

.05 

.1 

.2 

.5 


0.05 






















0.10 






















0.15 



















122 


0.20 









139 





99 





70 


0.25 




110 





90 



128 64 


139101 

45 


0.30 



134 

78 



115 

63 



119 

90 45 


122 

97 

71 

32 


0.35 


125 

99 

58 


109 

85 

47 


109 

88 

67 34 


90 

72 

52 

24 


0.40 


115 

97 

77 

45 


101 

85 

66 

37117 

84 

68 

5126 101 

70 

55 

40 

19 


0.45 


92 

77 

62 

37110 

81 

68 

53 

30 

93 

67 

54 

41 21 

80 

55 

44 

33 

15 


0.50 

100 

75 

63 

51 

30 

90 

66 

55 

43 

25 

76 

54 

44 

3418 

65 

45 

36 

27 

13 


0.55 

83 

63 

53 

42 

26 

75 

55 

46 

36 

21 

63 

45 

37 

28 15 

54 

38 

30 

22 

11 


0.60 

71 

53 

45 

36 

22 

63 

47 

39 

31 

18 

53 

38 

32 

2413 

46 

32 

26 

19 

9 


0.65 

61 

46 

39 

31 

20 

55 

41 

34 

27 

16 

46 

33 

27 

21 12 

39 

28 

22 

17 

8 


0.70 

53 

40 

34 

28 

17 

47 

35 

30 

24 

14 

40 

29 

24 

19 10 

34 

24 

19 

15 

8 


0.75 

47 

36 

30 

25 

16 

42 

31 

27 

21 

13 

35 

26 

21 

16 

9 

30 

21 

17 

13 

7 


0.80 

41 

32 

27 

22 

14 

37 

28 

24 

19 

12 

31 

22 

19 

15 

9 

27 

19 

15 

12 

6 


0.85 

37 

29 

24 

20 

13 

33 

25 

21 

17 

11 

28 

21 

17 

13 

8 

24 

17 

14 

11 

6 


0.90 

34 

26 

22 

18 

12 

29 

23 

19 

16 

10 

25 

19 

16 

12 

7 

21 

15 

13 

10 

5 

Valor de 

0.95 

31 

24 

20 

17 

11 

27 

21 

18 

14 

9 

23 

17 

14 

11 

7 

19 

14 

11 

9 

5 

b 

II 

<1 

1.00 

28 

22 

19 

16 

10 

25 

19 

16 

13 

9 

21 

16 

13 

10 

6 

18 

13 

11 

8 

5 


1.1 

24 

19 

16 

14 

9 

21 

16 

14 

12 

8 

18 

13 

11 

9 

6 


15 

11 

9 

7 


1.2 

21 

16 

14 

12 

8 

18 

14 

12 

10 

7 

15 

12 

10 

8 

5 


13 

10 

8 

6 


1.3 

18 

15 

13 

11 

8 

16 

13 

11 

9 

6 


14 

10 

9 

7 


11 

8 

7 

6 


1.4 

16 

13 

12 

10 

7 

14 

11 

10 

9 

6 

12 

9 

8 

7 


10 

8 

7 

5 



1.5 

15 

12 

11 

9 

7 

13 

10 

9 

8 

6 

11 

8 

7 

6 



9 

7 

6 



1.6 

13 

11 

10 

8 

6 

12 

10 

9 

7 

5 


10 

8 

7 

6 



8 

6 

6 


1.7 

12 

10 

9 

8 

6 


11 

9 

8 

7 


9 

7 

6 

5 



8 

6 

5 


1.8 

12 

10 

9 

8 

6 


10 

8 

7 

7 



8 

7 

6 




7 

6 


1.9 

11 

9 

8 

7 

6 


10 

8 

7 

6 



8 

6 

6 




7 

5 


2.0 

10 

8 

8 

7 

5 


9 

7 

7 

6 



7 

6 

5 





6 


2.1 


10 

8 

7 

7 


8 

7 

6 

6 




7 

6 





6 


2.2 


9 

8 

7 

6 


8 

7 

6 

5 




7 

6 





6 


2.3 


9 

7 

7 

6 



8 

6 

6 




6 

5 





5 


2.4 


8 

7 

7 

6 



7 

6 

6 





6 







2.5 


8 

7 

6 

6 



7 

6 

6 





6 







3.0 


7 

6 

6 

5 



6 

5 

5 





5 







3.5 



6 

5 

5 





5 












AO 6 

*Reproducida con autorizacion de 0. L. Davies, ed., Design and, Analysis of Industrial Experi- 
ments , Oliver & Boyd, Edimburgo, 1956. 



Tabla A. 9 Tamano muestral para la prueba t de la diferencia entre dos medias 
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Tabla A. 9* Tamano muestral para la prueba t de la diferencia entre dos medias 


Nivel de la prueba t 

Prueba unilateral a = 0.005 ex = 0.01 a = 0.025 a = 0.05 

Prueba bilateral a. — 0.01 a — 0.02 a — 0.05 a — 0.1 


0 = 

= 01 

.01 

.05 

.1 

.2 

.5 

.01 

.05 


0.05 









0.10 









0.15 









0.20 









0.25 









0.30 









0.35 




110 




0.40 





85 




0.45 



118 

68 




0.50 




96 

55 




0.55 


101 

79 

46 


106 


0.60 


101 

85 

67 

39 


90 


0.65 


87 

73 

57 

34104 

77 


0.70 

100 

75 

63 

50 

29 

90 

66 


0.75 

88 

66 

55 

44 

26 

79 

58 


0.80 

77 

58 

49 

39 

23 

70 

51 


0.85 

69 

51 

43 

35 

21 

62 

46 


0.90 

62 

46 

39 

31 

19 

55 

41 

Valor de 

0.95 

55 

42 

35 

28 

17 

50 

37 

I> 

II 

'q' 

1.00 

50 

38 

32 

26 

15 

45 

33 


1.1 

42 

32 

27 

22 

13 

38 

28 


1.2 

36 

27 

23 

18 

11 

32 

24 


1.3 

31 

23 

20 

16 

10 

28 

21 


1.4 

27 

20 

17 

14 

9 

24 

18 


1.5 

24 

18 

15 

13 

8 

21 

16 


1.6 

21 

16 

14 

11 

7 

19 

14 


1.7 

19 

15 

13 

10 

7 

17 

13 


1.8 

17 

13 

71 

10 

6 

15 

12 


1.9 

16 

12 

11 

9 

6 

14 

11 


2.0 

14 

11 

10 

8 

6 

13 

10 


2.1 

13 

10 

9 

8 

5 

12 

9 


2.2 

12 

10 

8 

7 

5 

11 

9 


2.3 

11 

9 

8 

7 

5 

10 

8 


2.4 

11 

9 

8 

6 

5 

10 

8 


2.5 

10 

8 

7 

6 

4 

9 

7 


3.0 

8 

6 

6 

5 

4 

7 

6 


3.5 

6 

5 

5 

4 

3 

6 

5 


4.0 

6 

5 

4 

4 


5 

4 


.1 .2 .5.01.05 .1 .2 .5.01.05 .1 .2 .5 


137 

124 88 


123 87 61 




90 





64 




102 

45 



70 




100 

50 



108 

78 

35 


101 

55 



105 

79 

39 


108 

86 

62 

28 

106 

82 

45 


106 

86 

64 

32 


88 

70 

51 

23 

88 

68 

38 


87 

71 

53 

27 

112 

73 

58 

42 

19 

74 

58 

32 104 

74 

60 

45 

23 

89 

61 

49 

36 

16 

64 

49 

27 

88 

63 

51 

39 

20 

76 

52 

42 

30 

14 

55 

43 

24 

76 

55 

44 

34 

17 

66 

45 

36 

26 

12 

48 

38 

21 

67 

48 

39 

29 

15 

57 

40 

32 

23 

11 

43 

33 

19 

59 

42 

34 

26 

14 

50 

35 

28 

21 

10 

38 

30 

17 

52 

37 

31 

23 

12 

45 

31 

25 

18 

9 

34 

27 

15 

47 

34 

27 

21 

11 

40 

28 

22 

16 

8 

31 

24 

14 

42 

30 

25 

19 

10 

36 

25 

20 

15 

7 

28 

22 

13 

38 

27 

23 

17 

9 

33 

23 

18 

14 

7 

23 

19 

11 

32 

23 

19 

14 

8 

27 

19 

15 

12 

6 

20 

16 

9 

27 

20 

16 

12 

7 

23 

16 

13 

10 

5 

17 

14 

8 

23 

17 

14 

11 

6 

20 

14 

11 

9 

5 

15 

12 

8 

20 

15 

12 

10 

6 

17 

12 

10 

8 

4 

14 

11 

7 

18 

13 

11 

9 

5 

15 

11 

9 

7 

4 

12 

10 

6 

16 

12 

10 

8 

5 

14 

10 

8 

6 

4 

11 

9 

6 

14 

11 

9 

7 

4 

12 

9 

7 

6 

3 

10 

8 

5 

13 

10 

8 

6 

4 

11 

8 

7 

5 


9 

8 

5 

12 

9 

7 

6 

4 

10 

7 

6 

5 


9 

7 

5 

11 

8 

7 

6 

4 

9 

7 

6 

4 


8 

7 

5 

10 

8 

6 

5 

3 

8 

6 

5 

4 


7 

6 

4 

9 

7 

6 

5 


8 

6 

5 

4 


7 

6 

4 

9 

7 

6 

5 


7 

5 

5 

4 


7 

6 

48 

6 

5 

4 


7 

5 

4 

4 



6 

5 

4 

8 

6 

5 

4 


6 

5 

4 

3 


5 

4 

3 

6 

5 

4 

4 


5 

4 

3 



4 

4 

5 

4 

4 

3 


4 

3 





4 

3 

4 

4 

3 



4 







*Reproducida con autorizacion de O. L. Davies, ed., Design and Analysis of Industrial Experi- 
ments , Oliver & Boyd, Edimburgo, 1956. 
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Apendice A Tablas y pruebas estadi'sticas 


Tabla A. 10* Valores crfticos para la prueba de Bartlett 


bk (0.01; n) 

n 




Numero de poblaciones, k 




2 

3 

4 

5 

6 

7 

8 

9 

10 

3 

0.1411 

0.1672 








4 

0.2843 

0.3165 

0.3475 

0.3729 

0.3937 

0.4110 




5 

0.3984 

0.4304 

0.4607 

0.4850 

0.5046 

0.5207 

0.5343 

0.5458 

0.5558 

6 

0.4850 

0.5149 

0.5430 

0.5653 

0.5832 

0.5978 

0.6100 

0.6204 

0.6 293 

7 

0.5512 

0.5787 

0.6045 

0.6248 

0.6410 

0.6542 

0.6652 

0.6744 

0.6824 

8 

0.6031 

0.6282 

0.6518 

0.6704 

0.6851 

0.6970 

0.7069 

0.7153 

0.7225 

9 

0.6445 

0.6676 

0.6892 

0.7062 

0.7197 

0.7305 

0.7395 

0.7471 

0.7536 

10 

0.6783 

0.6996 

0.7195 

0.7352 

0.7475 

0.7575 

0.7657 

0.7726 

0.7786 

11 

0.7063 

0.7260 

0.7445 

0.7590 

0.7703 

0.7795 

0.7871 

0.7935 

0.7990 

12 

0.7299 

0.7483 

0.7654 

0.7789 

0.7894 

0.7980 

0.8050 

0.8109 

0.8160 

13 

0.7501 

0.7672 

0.7832 

0.7958 

0.8056 

0.8135 

0.8201 

0.8256 

0.8303 

14 

0.7674 

0.7835 

0.7985 

0.8103 

0.8195 

0.8269 

0.8330 

0.8382 

0.8426 

15 

0.7825 

0.7977 

0.8118 

0.8229 

0.8315 

0.8385 

0.8443 

0.8491 

0.8532 

16 

0.7958 

0.8101 

0.8235 

0.8339 

0.8421 

0.8486 

0.8541 

0.8586 

0.8625 

17 

0.8076 

0.8211 

0.8338 

0.8436 

0.8514 

0.8576 

0.8627 

0.8670 

0.8707 

18 

0.8181 

0.8309 

0.8429 

0.8523 

0.8596 

0.8655 

0.8704 

0.8745 

0.8780 

19 

0.8275 

0.8397 

0.8512 

0.8601 

0.8670 

0.8727 

0.8773 

0.8811 

0.8845 

20 

0.8360 

0.8476 

0.8586 

0.8671 

0.8737 

0.8791 

0.8835 

0.8871 

0.8903 

21 

0.8437 

0.8548 

0.8653 

0.8734 

0.8797 

0.8848 

0.8890 

0.8926 

0.8956 

22 

0.8507 

0.8614 

0.8714 

0.8791 

0.8852 

0.8901 

0.8941 

0.8975 

0.9004 

23 

0.8571 

0.8673 

0.8769 

0.8844 

0.8902 

0.8949 

0.8988 

0.9020 

0.9047 

24 

0.8630 

0.8728 

0.8820 

0.8892 

0.8948 

0.8993 

0.9030 

0.9061 

0.9087 

25 

0.8684 

0.8779 

0.8867 

0.8936 

0.8990 

0.9034 

0.9069 

0.9099 

0.9124 

26 

0.8734 

0.8825 

0.8911 

0.8977 

0.9029 

0.9071 

0.9105 

0.9134 

0.9158 

27 

0.8781 

0.8869 

0.8951 

0.9015 

0.9065 

0.9105 

0.9138 

0.9166 

0.9190 

28 

0.8824 

0.8909 

0.8988 

0.9050 

0.9099 

0.9138 

0.9169 

0.9196 

0.9219 

29 

0.8864 

0.8946 

0.9023 

0.9083 

0.9130 

0.9167 

0.9198 

0.9224 

0.9246 

30 

0.8902 

0.8981 

0.9056 

0.9114 

0.9159 

0.9195 

0.9225 

0.9250 

0.9271 

40 

0.9175 

0.9235 

0.9291 

0.9335 

0.9370 

0.9397 

0.9420 

0.9439 

0.9455 

50 

0.9339 

0.9387 

0.9433 

0.9468 

0.9496 

0.9518 

0.9536 

0.9551 

0.9564 

60 

0.9449 

0.9489 

0.9527 

0.9557 

0.9580 

0.9599 

0.9614 

0.9626 

0.9637 

80 

0.9586 

0.9617 

0.9646 

0.9668 

0.9685 

0.9699 

0.9711 

0.9720 

0.9728 

100 

0.9669 

0.9693 

0.9716 

0.9734 

0.9748 

0.9759 

0.9769 

0.9776 

0.9783 


*Reproducida de D. D. Dyer y J. P. Keating, “On the Determination of Critical Values for 
Bartlett’s Test”, J. Am. Stat. Assoc., 75, 1980, con autorizacion del consejo de directores. 


Tabla A. 10 Valores criticos para la prueba de Bartlett 
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Tabla A. 10 (continuation) Valores cn'ticos para la prueba de Bartlett 


bk (0.05; n) 

Numero de poblaciones, k 


n 

2 

3 

4 

5 

6 

7 

8 

9 

10 

3 

0.3123 

0.3058 

0.3173 

0.3299 






4 

0.4780 

0.4699 

0.4803 

0.4921 

0.5028 

0.5122 

0.5204 

0.5277 

0.5341 

5 

0.5845 

0.5762 

0.5850 

0.5952 

0.6045 

0.6126 

0.6197 

0.6260 

0.6315 

6 

0.6563 

0.6483 

0.6559 

0.6646 

0.6727 

0.6798 

0.6860 

0.6914 

0.6961 

7 

0.7075 

0.7000 

0.7065 

0.7142 

0.7213 

0.7275 

0.7329 

0.7376 

0.7418 

8 

0.7456 

0.7387 

0.7444 

0.7512 

0.7574 

0.7629 

0.7677 

0.7719 

0.7757 

9 

0.7751 

0.7686 

0.7737 

0.7798 

0.7854 

0.7903 

0.7946 

0.7984 

0.8017 

10 

0.7984 

0.7924 

0.7970 

0.8025 

0.8076 

0.8121 

0.8160 

0.8194 

0.8224 

11 

0.8175 

0.8118 

0.8160 

0.8210 

0.8257 

0.8298 

0.8333 

0.8365 

0.8392 

12 

0.8332 

0.8280 

0.8317 

0.8364 

0.8407 

0.8444 

0.8477 

0.8506 

0.8531 

13 

0.8465 

0.8415 

0.8450 

0.8493 

0.8533 

0.8568 

0.8598 

0.8625 

0.8648 

14 

0.8578 

0.8532 

0.8564 

0.8604 

0.8641 

0.8673 

0.8701 

0.8726 

0.8748 

15 

0.8676 

0.8632 

0.8662 

0.8699 

0.8734 

0.8764 

0.8790 

0.8814 

0.8834 

16 

0.8761 

0.8719 

0.8747 

0.8782 

0.8815 

0.8843 

0.8868 

0.8890 

0.8909 

17 

0.8836 

0.8796 

0.8823 

0.8856 

0.8886 

0.8913 

0.8936 

0.8957 

0.8975 

18 

0.8902 

0.8865 

0.8890 

0.8921 

0.8949 

0.8975 

0.8997 

0.9016 

0.9033 

19 

0.8961 

0.8926 

0.8949 

0.8979 

0.9006 

0.9030 

0.9051 

0.9069 

0.9086 

20 

0.9015 

0.8980 

0.9003 

0.9031 

0.9057 

0.9080 

0.9100 

0.9117 

0.9132 

21 

0.9063 

0.9030 

0.9051 

0.9078 

0.9103 

0.9124 

0.9143 

0.9160 

0.9175 

22 

0.9106 

0.9075 

0.9095 

0.9120 

0.9144 

0.9165 

0.9183 

0.9199 

0.9213 

23 

0.9146 

0.9116 

0.9135 

0.9159 

0.9182 

0.9202 

0.9219 

0.9235 

0.9248 

24 

0.9182 

0.9153 

0.9172 

0.9195 

0.9217 

0.9236 

0.9253 

0.9267 

0.9280 

25 

0.9216 

0.9187 

0.9205 

0.9228 

0.9249 

0.9267 

0.9283 

0.9297 

0.9309 

26 

0.9246 

0.9219 

0.9236 

0.9258 

0.9278 

0.9296 

0.9311 

0.9325 

0.9336 

27 

0.9275 

0.9249 

0.9265 

0.9286 

0.9305 

0.9322 

0.9337 

0.9350 

0.9361 

28 

0.9301 

0.9276 

0.9292 

0.9312 

0.9330 

0.9347 

0.9361 

0.9374 

0.9385 

29 

0.9326 

0.9301 

0.9316 

0.9336 

0.9354 

0.9370 

0.9383 

0.9396 

0.9406 

30 

0.9348 

0.9325 

0.9340 

0.9358 

0.9376 
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Tabla A. 12 Puntos porcentuales superiores de la distribution de rangos studentizados: 
Valores de <7(0.05; k, v ) 


Grados de 

libertad, v 



Numero de tratamientos, k 



2 

3 

4 

5 

6 

7 

8 

9 

10 

1 

18.0 

27.0 

32.8 

37.2 

40.5 

43.1 

15.1 

47.1 

49.1 

2 

6.09 

5.33 

9.80 

10.89 

11.73 

12.43 

13.03 

13.54 

13.99 

3 

4.50 

5.91 

6.83 

7.51 

8.04 

8.47 

8.85 

9.18 

9.46 

4 

3.93 

5.04 

5.76 

6.29 

6.71 

7.06 

7.35 

7.60 

7.83 

5 

3.64 

4.60 

5.22 

5.67 

6.03 

6.33 

6.58 

6.80 

6.99 

6 

3.46 

4.34 

4.90 

5.31 

5.63 

5.89 

6.12 

6.32 

6.49 

7 

3.34 

4.16 

4.68 

5.06 

5.35 

5.59 

5.80 

5.99 

6.15 

8 

3.26 

4.04 

4.53 

4.89 

5.17 

5.40 

5.60 

5.77 

5.92 

9 

3.20 

3.95 

4.42 

4.76 

5.02 

5.24 

5.43 

5.60 

5.74 

10 

3.15 

3.88 

4.33 

4.66 

4.91 

5.12 

5.30 

5.46 

5.60 

11 

3.11 

3.82 

4.26 

4.58 

4.82 

5.03 

5.20 

5.35 

5.49 

12 

3.08 

3.77 

4.20 

4.51 

4.75 

4.95 

5.12 

5.27 

5.40 

13 

3.06 

3.73 

4.15 

4.46 

4.69 

4.88 

5.05 

5.19 

5.32 

14 

3.03 

3.70 

4.11 

4.41 

4.65 

4.83 

4.99 

5.13 

5.25 

15 

3.01 

3.67 

4.08 

4.37 

4.59 

4.78 

4.94 

5.08 

5.20 

16 

3.00 

3.65 

4.05 

4.34 

4.56 

4.74 

4.90 

5.03 

5.05 

17 

2.98 

3.62 

4.02 

4.31 

4.52 

4.70 

4.86 

4.99 

5.11 

18 

2.97 

3.61 

4.00 

4.28 

4.49 

4.67 

4.83 

4.96 

5.07 

19 

2.96 

3.59 

3.98 

4.26 

4.47 

4.64 

4.79 

4.92 

5.04 

20 

2.95 

3.58 

3.96 

4.24 

4.45 

4.62 

4.77 

4.90 

5.01 

24 

2.92 

3.53 

3.90 

4.17 

4.37 

4.54 

4.68 

4.81 

4.92 

30 

2.89 

3.48 

3.84 

4.11 

4.30 

4.46 

4.60 

4.72 

4.83 

40 

2.86 

3.44 

3.79 

4.04 

4.23 

4.39 

4.52 

4.63 

4.74 

60 

2.83 

3.40 

3.74 

3.98 

4.16 

4.31 

4.44 

4.55 

4.65 

120 

2.80 

3.36 

3.69 

3.92 

4.10 

4.24 

4.36 

4.47 

4.56 

oc 

2.77 

3.32 

3.63 

3.86 

4.03 

4.17 

4.29 

4.39 

4.47 



Tabla A. 13 Rangos studentizados signidcativos mmimos r p (0.05; p, v) 
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Tabla A. 13* Rangos studentizados significativos mmimos r p (0.05;p, v) 






Ct 

= 0.05 










P 





V 

2 

3 

4 

5 

6 

7 

8 

9 

10 

1 

17.97 

17.97 

17.97 

17.97 

17.97 

17.97 

17.97 

17.97 

17.97 

2 

6.085 

6.085 

6.085 

6.085 

6.085 

6.085 

6.085 

6.085 

6.085 

3 

4.501 

4.516 

4.516 

4.516 

4.516 

4.516 

4.516 

4.516 

4.516 

4 

3.927 

4.013 

4.033 

4.033 

4.033 

4.033 

4.033 

4.033 

4.033 

5 

3.635 

3.749 

3.797 

3.814 

3.814 

3.814 

3.814 

3.814 

3.814 

6 

3.461 

3.587 

3.649 

3.68 

3.694 

3.697 

3.697 

3.697 

3.697 

7 

3.344 

3.477 

3.548 

3.588 

3.611 

3.622 

3.626 

3.626 

3.626 

8 

3.261 

3.399 

3.475 

3.521 

3.549 

3.566 

3.575 

3.579 

3.579 

9 

3.199 

3.339 

3.420 

3.470 

3.502 

3.523 

3.536 

3.544 

3.547 

10 

3.151 

3.293 

3.376 

3.430 

3.465 

3.489 

3.505 

3.516 

3.522 

11 

3.113 

3.256 

3.342 

3.397 

3.435 

3.462 

3.48 

3.493 

3.501 

12 

3.082 

3.225 

3.313 

3.370 

3.410 

3.439 

3.459 

3.474 

3.484 

13 

3.055 

3.200 

3.289 

3.348 

3.389 

3.419 

3.442 

3.458 

3.470 

14 

3.033 

3.178 

3.268 

3.329 

3.372 

3.403 

3.426 

3.444 

3.457 

15 

3.014 

3.160 

3.25 

3.312 

3.356 

3.389 

3.413 

3.432 

3.446 

16 

2.998 

3.144 

3.235 

3.298 

3.343 

3.376 

3.402 

3.422 

3.437 

17 

2.984 

3.130 

3.222 

3.285 

3.331 

3.366 

3.392 

3.412 

3.429 

18 

2.971 

3.118 

3.210 

3.274 

3.321 

3.356 

3.383 

3.405 

3.421 

19 

2.960 

3.107 

3.199 

3.264 

3.311 

3.347 

3.375 

3.397 

3.415 

20 

2.950 

3.097 

3.190 

3.255 

3.303 

3.339 

3.368 

3.391 

3.409 

24 

2.919 

3.066 

3.160 

3.226 

3.276 

3.315 

3.345 

3.370 

3.390 

30 

2.888 

3.035 

3.131 

3.199 

3.250 

3.290 

3.322 

3.349 

3.371 

40 

2.858 

3.006 

3.102 

3.171 

3.224 

3.266 

3.300 

3.328 

3.352 

60 

2.829 

2.976 

3.073 

3.143 

3.198 

3.241 

3.277 

3.307 

3.333 

120 

2.800 

2.947 

3.045 

3.116 

3.172 

3.217 

3.254 

3.287 

3.314 

oo 

2.772 

2.918 

3.017 

3.089 

3.146 

3.193 

3.232 

3.265 

3.294 


*Condensada de H. Leon Harter, “Critical Values for Duncan’s New Multiple Range 
Test”, Biometrics, 16, num. 4, 1960, con autorizacion del autor y del editor 
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Tabla A. 13 (continuation) Rangos studentizados significativos mmimos r p (0.01; p, v) 






OL = 

0.01 










P 





V 

2 

3 

4 

5 

6 

7 

8 

9 

10 

1 

90.03 

90.03 

90.03 

90.03 

90.03 

90.03 

90.03 

90.03 

90.03 

2 

14.04 

14.04 

14.04 

14.04 

14.04 

14.04 

14.04 

14.04 

14.04 

3 

8.261 

8.321 

8.321 

8.321 

8.321 

8.321 

8.321 

8.321 

8.321 

4 

6.512 

6.677 

6.740 

6.756 

6.756 

6.756 

6.756 

6.756 

6.756 

5 

5.702 

5.893 

5.989 

6.040 

6.065 

6.074 

6.074 

6.074 

6.074 

6 

5.243 

5.439 

5.549 

5.614 

5.655 

5.680 

5.694 

5.701 

5.703 

7 

4.949 

5.145 

5.260 

5.334 

5.383 

5.416 

5.439 

5.454 

5.464 

8 

4.746 

4.939 

5.057 

5.135 

5.189 

5.227 

5.256 

5.276 

5.291 

9 

4.596 

4.787 

4.906 

4.986 

5.043 

5.086 

5.118 

5.142 

5.160 

10 

4.482 

4.671 

4.790 

4.871 

4.931 

4.975 

5.010 

5.037 

5.058 

11 

4.392 

4.579 

4.697 

4.780 

4.841 

4.887 

4.924 

4.952 

4.975 

12 

4.320 

4.504 

4.622 

4.706 

4.767 

4.815 

4.852 

4.883 

4.907 

13 

4.260 

4.442 

4.560 

4.644 

4.706 

4.755 

4.793 

4.824 

4.850 

14 

4.210 

4.391 

4.508 

4.591 

4.654 

4.704 

4.743 

4.775 

4.802 

15 

4.168 

4.347 

4.463 

4.547 

4.610 

4.660 

4.700 

4.733 

4.760 

16 

4.131 

4.309 

4.425 

4.509 

4.572 

4.622 

4.663 

4.696 

4.724 

17 

4.099 

4.275 

4.391 

4.475 

4.539 

4.589 

4.630 

4.664 

4.693 

18 

4.071 

4.246 

4.362 

4.445 

4.509 

4.560 

4.601 

4.635 

4.664 

19 

4.046 

4.220 

4.335 

4.419 

4.483 

4.534 

4.575 

4.610 

4.639 

20 

4.024 

4.197 

4.312 

4.395 

4.459 

4.510 

4.552 

4.587 

4.617 

24 

3.956 

4.126 

4.239 

4.322 

4.386 

4.437 

4.480 

4.516 

4.546 

30 

3.889 

4.056 

4.168 

4.250 

4.314 

4.366 

4.409 

4.445 

4.477 

40 

3.825 

3.988 

4.098 

4.180 

4.244 

4.296 

4.339 

4.376 

4.408 

60 

3.762 

3.922 

4.031 

4.111 

4.174 

4.226 

4.270 

4.307 

4.340 

120 

3.702 

3.858 

3.965 

4.044 

4.107 

4.158 

4.202 

4.239 

4.272 

OO 

3.643 

3.796 

3.900 

3.978 

4.040 

4.091 

4.135 

4.172 

4.205 



Tabla A. 14 Valores de d a /i(k, v) para comparaciones bilaterales... 
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Tabla A. 14* Valores de d a / 2 (k,v) para comparaciones bilaterales entre k tratamientos 
y un control 






Oi 

= 0.05 





V 


k = numero de medias de tratamiento (excluye el control) 


1 

2 

3 

4 

5 

6 

7 

8 

9 

5 

2.57 

3.03 

3.29 

3.48 

3.62 

3.73 

3.82 

3.90 

3.97 

6 

2.45 

2.86 

3.10 

3.26 

3.39 

3.49 

3.57 

3.64 

3.71 

7 

2.36 

2.75 

2.97 

3.12 

3.24 

3.33 

3.41 

3.47 

3.53 

8 

2.31 

2.67 

2.88 

3.02 

3.13 

3.22 

3.29 

3.35 

3.41 

9 

2.26 

2.61 

2.81 

2.95 

3.05 

3.14 

3.20 

3.26 

3.32 

10 

2.23 

2.57 

2.76 

2.89 

2.99 

3.07 

3.14 

3.19 

3.24 

11 

2.20 

2.53 

2.72 

2.84 

2.94 

3.02 

3.08 

3.14 

3.19 

12 

2.18 

2.50 

2.68 

2.81 

2.90 

2.98 

3.04 

3.09 

3.14 

13 

2.16 

2.48 

2.65 

2.78 

2.87 

2.94 

3.00 

3.06 

3.10 

14 

2.14 

2.46 

2.63 

2.75 

2.84 

2.91 

2.97 

3.02 

3.07 

15 

2.13 

2.44 

2.61 

2.73 

2.82 

2.89 

2.95 

3.00 

3.04 

16 

2.12 

2.42 

2.59 

2.71 

2.80 

2.87 

2.92 

2.97 

3.02 

17 

2.11 

2.41 

2.58 

2.69 

2.78 

2.85 

2.90 

2.95 

3.00 

18 

2.10 

2.40 

2.56 

2.68 

2.76 

2.83 

2.89 

2.94 

2.98 

19 

2.09 

2.39 

2.55 

2.66 

2.75 

2.81 

2.87 

2.92 

2.96 

20 

2.09 

2.38 

2.54 

2.65 

2.73 

2.80 

2.86 

2.90 

2.95 

24 

2.06 

2.35 

2.51 

2.61 

2.70 

2.76 

2.81 

2.86 

2.90 

30 

2.04 

2.32 

2.47 

2.58 

2.66 

2.72 

2.77 

2.82 

2.86 

40 

2.02 

2.29 

2.44 

2.54 

2.62 

2.68 

2.73 

2.77 

2.81 

60 

2.00 

2.27 

2.41 

2.51 

2.58 

2.64 

2.69 

2.73 

2.77 

120 

1.98 

2.24 

2.38 

2.47 

2.55 

2.60 

2.65 

2.69 

2.73 

oo 

1.96 

2.21 

2.35 

2.44 

2.51 

2.57 

2.61 

2.65 

2.69 


*Reproducida de Charles W. Dunnett, “New Tables for Multiple Comparison with a Con- 
trol”, Biometrics , 20, mini. 3, 1964, con autorizacion del autor y del editor. 
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Tabla A. 14 (continuation) Valores de d a / 2 (k,v) para comparaciones bilaterales entre 
k tratamientos y un control 






Oi 

= 0.01 





V 


k = numero de medias de tratamiento (excluye el control) 


1 

2 

3 

4 

5 

6 

7 

8 

9 

5 

4.03 

4.63 

4.98 

5.22 

5.41 

5.56 

5.69 

5.80 

5.89 

6 

3.71 

4.21 

4.51 

4.71 

4.87 

5.00 

5.10 

5.20 

5.28 

7 

3.50 

3.95 

4.21 

4.39 

4.53 

4.64 

4.74 

4.82 

4.89 

8 

3.36 

3.77 

4.00 

4.17 

4.29 

4.40 

4.48 

4.56 

4.62 

9 

3.25 

3.63 

3.85 

4.01 

4.12 

4.22 

4.30 

4.37 

4.43 

10 

3.17 

3.53 

3.74 

3.88 

3.99 

4.08 

4.16 

4.22 

4.28 

11 

3.11 

3.45 

3.65 

3.79 

3.89 

3.98 

4.05 

4.11 

4.16 

12 

3.05 

3.39 

3.58 

3.71 

3.81 

3.89 

3.96 

4.02 

4.07 

13 

3.01 

3.33 

3.52 

3.65 

3.74 

3.82 

3.89 

3.94 

3.99 

14 

2.98 

3.29 

3.47 

3.59 

3.69 

3.76 

3.83 

3.88 

3.93 

15 

2.95 

3.25 

3.43 

3.55 

3.64 

3.71 

3.78 

3.83 

3.88 

16 

2.92 

3.22 

3.39 

3.51 

3.60 

3.67 

3.73 

3.78 

3.83 

17 

2.90 

3.19 

3.36 

3.47 

3.56 

3.63 

3.69 

3.74 

3.79 

18 

2.88 

3.17 

3.33 

3.44 

3.53 

3.60 

3.66 

3.71 

3.75 

19 

2.86 

3.15 

3.31 

3.42 

3.50 

3.57 

3.63 

3.68 

3.72 

20 

2.85 

3.13 

3.29 

3.40 

3.48 

3.55 

3.60 

3.65 

3.69 

24 

2.80 

3.07 

3.22 

3.32 

3.40 

3.47 

3.52 

3.57 

3.61 

30 

2.75 

3.01 

3.15 

3.25 

3.33 

3.39 

3.44 

3.49 

3.52 

40 

2.70 

2.95 

3.09 

3.19 

3.26 

3.32 

3.37 

3.41 

3.44 

60 

2.66 

2.90 

3.03 

3.12 

3.19 

3.25 

3.29 

3.33 

3.37 

120 

2.62 

2.85 

2.97 

3.06 

3.12 

3.18 

3.22 

3.26 

3.29 

oo 

2.58 

2.79 

2.92 

3.00 

3.06 

3.11 

3.15 

3.19 

3.22 



Tabla A. 15 Valores de d u /'i(k, v) para comparaciones unilaterales... 
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Tabla A. 15* Valores de d a / 2 (k, v) para comparaciones unilaterales entre k tratarnientos 
y un control 


V 


k = numero de medias de tratamiento (excluye el control) 


1 

2 

3 

4 

5 

6 

7 

8 

9 

5 

2.02 

2.44 

2.68 

2.85 

2.98 

3.08 

3.16 

3.24 

3.30 

6 

1.94 

2.34 

2.56 

2.71 

2.83 

2.92 

3.00 

3.07 

3.12 

7 

1.89 

2.27 

2.48 

2.62 

2.73 

2.82 

2.89 

2.95 

3.01 

8 

1.86 

2.22 

2.42 

2.55 

2.66 

2.74 

2.81 

2.87 

2.92 

9 

1.83 

2.18 

2.37 

2.50 

2.60 

2.68 

2.75 

2.81 

2.86 

10 

1.81 

2.15 

2.34 

2.47 

2.56 

2.64 

2.70 

2.76 

2.81 

11 

1.80 

2.13 

2.31 

2.44 

2.53 

2.60 

2.67 

2.72 

2.77 

12 

1.78 

2.11 

2.29 

2.41 

2.50 

2.58 

2.64 

2.69 

2.74 

13 

1.77 

2.09 

2.27 

2.39 

2.48 

2.55 

2.61 

2.66 

2.71 

14 

1.76 

2.08 

2.25 

2.37 

2.46 

2.53 

2.59 

2.64 

2.69 

15 

1.75 

2.07 

2.24 

2.36 

2.44 

2.51 

2.57 

2.62 

2.67 

16 

1.75 

2.06 

2.23 

2.34 

2.43 

2.50 

2.56 

2.61 

2.65 

17 

1.74 

2.05 

2.22 

2.33 

2.42 

2.49 

2.54 

2.59 

2.64 

18 

1.73 

2.04 

2.21 

2.32 

2.41 

2.48 

2.53 

2.58 

2.62 

19 

1.73 

2.03 

2.20 

2.31 

2.40 

2.47 

2.52 

2.57 

2.61 

20 

1.72 

2.03 

2.19 

2.30 

2.39 

2.46 

2.51 

2.56 

2.60 

24 

1.71 

2.01 

2.17 

2.28 

2.36 

2.43 

2.48 

2.53 

2.57 

30 

1.70 

1.99 

2.15 

2.25 

2.33 

2.40 

2.45 

2.50 

2.54 

40 

1.68 

1.97 

2.13 

2.23 

2.31 

2.37 

2.42 

2.47 

2.51 

60 

1.67 

1.95 

2.10 

2.21 

2.28 

2.35 

2.39 

2.44 

2.48 

120 

1.66 

1.93 

2.08 

2.18 

2.26 

2.32 

2.37 

2.41 

2.45 

oo 

1.64 

1.92 

2.06 

2.16 

2.23 

2.29 

2.34 

2.38 

2.42 


*Reproducida de Charles W. Dunnett, “A Multiple Comparison Procedure for Comparing 
Several Treatments with a Control”, J. Am. Stat. Assoc., 50, 1955, 1096-1121, con 
autorizacion del autor y del editor. 
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Tabla A. 15 (continuacion) Valores de d a / 2 (k, v) para comparaciones unilaterales entre 
k tratamientos y un control 


V 


k = numero de medias de tratamiento (excluye el control) 


1 

2 

3 

4 

5 

6 

7 

8 

9 

5 

3.37 

3.90 

4.21 

4.43 

4.60 

4.73 

4.85 

4.94 

5.03 

6 

3.14 

3.61 

3.88 

4.07 

4.21 

4.33 

4.43 

4.51 

4.59 

7 

3.00 

3.42 

3.66 

3.83 

3.96 

4.07 

4.15 

4.23 

4.30 

8 

2.90 

3.29 

3.51 

3.67 

3.79 

3.88 

3.96 

4.03 

4.09 

9 

2.82 

3.19 

3.40 

3.55 

3.66 

3.75 

3.82 

3.89 

3.94 

10 

2.76 

3.11 

3.31 

3.45 

3.56 

3.64 

3.71 

3.78 

3.83 

11 

2.72 

3.06 

3.25 

3.38 

3.48 

3.56 

3.63 

3.69 

3.74 

12 

2.68 

3.01 

3.19 

3.32 

3.42 

3.50 

3.56 

3.62 

3.67 

13 

2.65 

2.97 

3.15 

3.27 

3.37 

3.44 

3.51 

3.56 

3.61 

14 

2.62 

2.94 

3.11 

3.23 

3.32 

3.40 

3.46 

3.51 

3.56 

15 

2.60 

2.91 

3.08 

3.20 

3.29 

3.36 

3.42 

3.47 

3.52 

16 

2.58 

2.88 

3.05 

3.17 

3.26 

3.33 

3.39 

3.44 

3.48 

17 

2.57 

2.86 

3.03 

3.14 

3.23 

3.30 

3.36 

3.41 

3.45 

18 

2.55 

2.84 

3.01 

3.12 

3.21 

3.27 

3.33 

3.38 

3.42 

19 

2.54 

2.83 

2.99 

3.10 

3.18 

3.25 

3.31 

3.36 

3.40 

20 

2.53 

2.81 

2.97 

3.08 

3.17 

3.23 

3.29 

3.34 

3.38 

24 

2.49 

2.77 

2.92 

3.03 

3.11 

3.17 

3.22 

3.27 

3.31 

30 

2.46 

2.72 

2.87 

2.97 

3.05 

3.11 

3.16 

3.21 

3.24 

40 

2.42 

2.68 

2.82 

2.92 

2.99 

3.05 

3.10 

3.14 

3.18 

60 

2.39 

2.64 

2.78 

2.87 

2.94 

3.00 

3.04 

3.08 

3.12 

120 

2.36 

2.60 

2.73 

2.82 

2.89 

2.94 

2.99 

3.03 

3.06 

oo 

2.33 

2.56 

2.68 

2.77 

2.84 

2.89 

2.93 

2.97 

3.00 



Tabla A. 16* Potencia dc la prueba dc analisis do varianza 


Tabla A. 16 Potencia de la prueba de analisis de varianza 
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Apendice A Tablas y pruebas estadisticas 



0 (para a = 0.01) 








778 


Apendice A Tablas y pruebas estadisticas 



£/ — U = ejouaioj 


<f> (para a = 0.01) 
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Apendice A Tablas y pruebas estadisticas 


O) 00 (O lO *t CM 

O) O O O) 0> O) O 

6 6 d odd 6 


o o o oooooo 

o oo to m rt co cm t— 

o o o dddddo 



$ (para a = 0.05) 


Tabla A. 17 Valores cnticos para la prueba de rangos con signo 
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Tabla A. 17* Valores crfticos para la prueba de rangos con signo 


n 

Unilateral 

Bilateral 

a = 0.01 

a = 0.02 

Unilateral a 
Bilateral a 

= 0.025 

= 0.05 

Unilateral a 
Bilateral a 

= 0.05 

= 0.1 

5 





1 


6 



1 


2 


7 

0 


2 


4 


8 

2 


4 


6 


9 

3 


6 


8 


10 

5 


8 


11 


11 

7 


11 


14 


12 

10 


14 


17 


13 

13 


17 


21 


14 

16 


21 


26 


15 

20 


25 


30 


16 

24 


30 


36 


17 

28 


35 


41 


18 

33 


40 


47 


19 

38 


46 


54 


20 

43 


52 


60 


21 

49 


59 


68 


22 

56 


66 


75 


23 

62 


73 


83 


24 

69 


81 


92 


25 

77 


90 


101 


26 

85 


98 


110 


27 

93 


107 


120 


28 

102 


117 


130 


29 

111 


127 


141 


30 

120 


137 


152 



*Reproducida de F. Wilcoxon y R. A. Wilcox, Some Rapid Approximate Statistical 
Procedures, American Cyanamid Company , Pearl River, N. Y., 1964, con autorizacion de 
la American Cyanamid Company. 
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Tabla A. 18* Valores crfticos para la prueba de suma de rangos de Wilcoxon 



Prueba de 

una 

cola i 

con ol — 

0.001 

o prueba de dos colas 

con ct 

= 0.002 


ni 







n 2 








6 7 

8 

9 

10 

ii 

12 

13 

14 

15 

16 

17 

18 

19 

20 

1 

2 















3 











0 

0 

0 

0 

4 




0 

0 

0 

1 

1 

1 

2 

2 

3 

3 

3 

5 

0 

0 

1 

1 

2 

2 

3 

3 

4 

5 

5 

6 

7 

7 

6 

0 1 

2 

2 

3 

4 

4 

5 

6 

7 

8 

9 

10 

11 

12 

7 

2 

3 

3 

5 

6 

7 

8 

9 

10 

11 

13 

14 

15 

16 

8 


5 

5 

6 

8 

9 

11 

12 

14 

15 

17 

18 

20 

21 

9 



7 

8 

10 

12 

14 

15 

17 

19 

21 

23 

25 

26 

10 




10 

12 

14 

17 

19 

21 

23 

25 

27 

29 

32 

11 





15 

17 

20 

22 

24 

27 

29 

32 

34 

37 

12 






20 

23 

25 

28 

31 

34 

37 

40 

42 

13 







26 

29 

32 

35 

38 

42 

45 

48 

14 








32 

36 

39 

43 

46 

50 

54 

15 









40 

43 

47 

51 

55 

59 

16 










48 

52 

56 

60 

65 

17 











57 

61 

66 

70 

18 












66 

71 

76 

19 













77 

82 

20 














88 




Prueba de una cola 

con ct = 

0.01 o 

prueba de dos colas 

con ct 

= 0.02 



Til 









n 2 








5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

1 

2 









0 

0 

0 

0 

0 

0 

1 

1 

3 



0 

0 

1 

1 

1 

2 

2 

2 

3 

3 

4 

4 

4 

5 

4 

0 

1 

1 

2 

3 

3 

4 

5 

5 

6 

7 

7 

8 

9 

9 

10 

5 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

16 

6 


3 

4 

6 

7 

8 

9 

11 

12 

13 

15 

16 

18 

19 

20 

22 

7 



6 

8 

9 

11 

12 

14 

16 

17 

19 

21 

23 

24 

26 

28 

8 




10 

11 

13 

15 

17 

20 

22 

24 

26 

28 

30 

32 

34 

9 





14 

16 

18 

21 

23 

26 

28 

31 

33 

36 

38 

40 

10 






19 

22 

24 

27 

30 

33 

36 

38 

41 

44 

47 

11 







25 

28 

31 

34 

37 

41 

44 

47 

50 

53 

12 








31 

35 

38 

42 

46 

49 

53 

56 

60 

13 









39 

43 

47 

51 

55 

59 

63 

67 

14 










47 

51 

56 

60 

65 

69 

73 

15 











56 

61 

66 

70 

75 

80 

16 












66 

71 

76 

82 

87 

17 













77 

82 

88 

93 

18 














88 

94 

100 

19 















101 

107 

20 
















114 


*Basada en parte de las tablas 1, 3, 5 y 7 de D. Auble, “Extended Tables for the Mann- Whitney Statistic”, 
Bulletin of the Institute of Educational Research at Indiana University, 1, num. 2, 1953, con autorizacion 
del director. 



Tabla A. 18 Valores cnticos para la prueba de suma de rangos de Wilcoxon 
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Tabla A. 18 (continuation) Valores crfticos para la prueba de suma de rangos de Wilcoxon 

Prueba de una cola con a = 0.025 o prueba de dos colas con a. = 0.05 


n 2 


ni 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

1 

2 





0 

0 

0 

0 

1 

1 

1 

1 

1 

2 

2 

2 

2 

3 


0 

1 

1 

2 

2 

3 

3 

4 

4 

5 

5 

6 

6 

7 

7 

8 

4 

0 

1 

2 

3 

4 

4 

5 

6 

7 

8 

9 

10 

11 

11 

12 

13 

13 

5 


2 

3 

5 

6 

7 

8 

9 

11 

12 

13 

14 

15 

17 

18 

19 

20 

6 



5 

6 

8 

10 

11 

13 

14 

16 

17 

19 

21 

22 

24 

25 

27 

7 




8 

10 

12 

14 

16 

18 

20 

22 

24 

26 

28 

30 

32 

34 

8 





13 

15 

17 

19 

22 

24 

26 

29 

31 

34 

36 

38 

41 

9 






17 

20 

23 

26 

28 

31 

34 

37 

39 

42 

45 

48 

10 







23 

26 

29 

33 

36 

39 

42 

45 

48 

52 

55 

11 








30 

33 

37 

40 

44 

47 

51 

55 

58 

62 

12 









37 

41 

45 

49 

53 

57 

61 

65 

69 

13 










45 

50 

54 

59 

63 

67 

72 

76 

14 











55 

59 

64 

67 

74 

78 

83 

15 












64 

70 

75 

80 

85 

90 

16 













75 

81 

86 

92 

98 

17 














87 

93 

99 

105 

18 















99 

106 

112 

19 
















113 

119 


20 127 


Prueba de una cola con a = 0.05 o prueba de dos colas con a = 0.1 


n 2 


ni 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

1 

















0 

0 

2 



0 

0 

0 

1 

1 

1 

1 

2 

2 

3 

3 

3 

3 

4 

4 

4 

3 

0 

0 

1 

2 

2 

3 

4 

4 

5 

5 

6 

7 

7 

8 

9 

9 

10 

11 

4 


1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

14 

15 

16 

17 

18 

5 



4 

5 

6 

8 

9 

11 

12 

13 

15 

16 

18 

19 

20 

22 

23 

25 

6 




7 

8 

10 

12 

14 

16 

17 

19 

21 

23 

25 

26 

28 

30 

32 

7 





11 

13 

15 

17 

19 

21 

24 

26 

28 

30 

33 

35 

37 

39 

8 






15 

18 

20 

23 

26 

28 

31 

33 

36 

39 

41 

44 

47 

9 







21 

24 

27 

30 

33 

36 

39 

42 

45 

48 

51 

54 

10 








27 

31 

34 

37 

41 

44 

48 

51 

55 

58 

62 

11 









34 

38 

42 

46 

50 

54 

57 

61 

65 

69 

12 










42 

47 

51 

55 

60 

64 

68 

72 

77 

13 











51 

56 

61 

65 

70 

75 

80 

84 

14 












61 

66 

71 

77 

82 

87 

92 

15 













72 

77 

83 

88 

94 

100 

16 














83 

89 

95 

101 

107 

17 















96 

102 

109 

115 

18 
















109 

116 

123 

19 

















123 

130 


20 138 
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Tabla A. 19* P(V < v* cuando Ho es verdadera) en la prueba de corridas 


( ni , n 2 ) 





v * 





2 

3 

4 

5 

6 

7 

8 

9 

10 

(2,3) 

0.200 

0.500 

0.900 

1.000 






(2,4) 

0.133 

0.400 

0.800 

1.000 






(2,5) 

0.095 

0.333 

0.714 

1.000 






(2,6) 

0.071 

0.286 

0.643 

1.000 






(2,7) 

0.056 

0.250 

0.583 

1.000 






(2,8) 

0.044 

0.222 

0.533 

1.000 






(2,9) 

0.036 

0.200 

0.491 

1.000 






(2,10) 

0.030 

0.182 

0.455 

1.000 






(3,3) 

0.100 

0.300 

0.700 

0.900 

1.000 





(3,4) 

0.057 

0.200 

0.543 

0.800 

0.971 

1.000 




(3,5) 

0.036 

0.143 

0.429 

0.714 

0.929 

1.000 




(3,6) 

0.024 

0.107 

0.345 

0.643 

0.881 

1.000 




(3,7) 

0.017 

0.083 

0.283 

0.583 

0.833 

1.000 




(3,8) 

0.012 

0.067 

0.236 

0.533 

0.788 

1.000 




(3,9) 

0.009 

0.055 

0.200 

0.491 

0.745 

1.000 




(3,10) 

0.007 

0.045 

0.171 

0.455 

0.706 

1.000 




(4,4) 

0.029 

0.114 

0.371 

0.629 

0.886 

0.971 

1.000 



(4,5) 

0.016 

0.071 

0.262 

0.500 

0.786 

0.929 

0.992 

1.000 


(4,6) 

0.010 

0.048 

0.190 

0.405 

0.690 

0.881 

0.976 

1.000 


(4,7) 

0.006 

0.033 

0.142 

0.333 

0.606 

0.833 

0.954 

1.000 


(4,8) 

0.004 

0.024 

0.109 

0.279 

0.533 

0.788 

0.929 

1.000 


(4,9) 

0.003 

0.018 

0.085 

0.236 

0.471 

0.745 

0.902 

1.000 


(4,10) 

0.002 

0.014 

0.068 

0.203 

0.419 

0.706 

0.874 

1.000 


(5,5) 

0.008 

0.040 

0.167 

0.357 

0.643 

0.833 

0.960 

0.992 

1.000 

(5,6) 

0.004 

0.024 

0.110 

0.262 

0.522 

0.738 

0.911 

0.976 

0.998 

(5,7) 

0.003 

0.015 

0.076 

0.197 

0.424 

0.652 

0.854 

0.955 

0.992 

(5,8) 

0.002 

0.010 

0.054 

0.152 

0.347 

0.576 

0.793 

0.929 

0.984 

(5,9) 

0.001 

0.007 

0.039 

0.119 

0.287 

0.510 

0.734 

0.902 

0.972 

(5,10) 

0.001 

0.005 

0.029 

0.095 

0.239 

0.455 

0.678 

0.874 

0.958 

(6,6) 

0.002 

0.013 

0.067 

0.175 

0.392 

0.608 

0.825 

0.933 

0.987 

(6,7) 

0.001 

0.008 

0.043 

0.121 

0.296 

0.500 

0.733 

0.879 

0.966 

(6,8) 

0.001 

0.005 

0.028 

0.086 

0.226 

0.413 

0.646 

0.821 

0.937 

(6,9) 

0.000 

0.003 

0.019 

0.063 

0.175 

0.343 

0.566 

0.762 

0.902 

(6,10) 

0.000 

0.002 

0.013 

0.047 

0.137 

0.288 

0.497 

0.706 

0.864 

(7,7) 

0.001 

0.004 

0.025 

0.078 

0.209 

0.383 

0.617 

0.791 

0.922 

(7,8) 

0.000 

0.002 

0.015 

0.051 

0.149 

0.296 

0.514 

0.704 

0.867 

(7,9) 

0.000 

0.001 

0.010 

0.035 

0.108 

0.231 

0.427 

0.622 

0.806 

(7,10) 

0.000 

0.001 

0.006 

0.024 

0.080 

0.182 

0.355 

0.549 

0.743 

(8,8) 

0.000 

0.001 

0.009 

0.032 

0.100 

0.214 

0.405 

0.595 

0.786 

(8,9) 

0.000 

0.001 

0.005 

0.020 

0.069 

0.157 

0.319 

0.500 

0.702 

(8,10) 

0.000 

0.000 

0.003 

0.013 

0.048 

0.117 

0.251 

0.419 

0.621 

(9,9) 

0.000 

0.000 

0.003 

0.012 

0.044 

0.109 

0.238 

0.399 

0.601 

(9,10) 

0.000 

0.000 

0.002 

0.008 

0.029 

0.077 

0.179 

0.319 

0.510 

(io,io) 

0.000 

0.000 

0.001 

0.004 

0.019 

0.051 

0.128 

0.242 

0.414 


*Reproducida de C. Eisenhart y F. Swed, “Tables for Testing Randomness of 


Grouping in a Sequence of Alternatives”, Ann. Math. Stat 14, 1943, con autorizacion 
del editor. 



Tabla A. 19 P(V < v* cuando Hg es verdadera) en la prueba de corridas 


Tabla A. 19 (continuation) P(V < v* cuando Ho es verdadera) en la prueba de corridas 

v* 


K,» 2 ) 

(2.3) 

(2.4) 

(2.5) 

( 2 . 6 ) 

(2.7) 

( 2 . 8 ) 

(2.9) 

( 2 . 10 ) 

(3.3) 

(3.4) 

(3.5) 

(3.6) 

(3.7) 

(3.8) 

(3.9) 

(3.10) 

(4.4) 

(4.5) 

(4.6) 

(4.7) 

(4.8) 

(4.9) 

(4.10) 

(5.5) 

(5.6) 

(5.7) 

(5.8) 

(5.9) 

(5.10) 

( 6 , 6 ) 

(6.7) 

( 6 . 8 ) 

(6.9) 

( 6 . 10 ) 

(7.7) 

(7.8) 

(7.9) 

(7.10) 

( 8 , 8 ) 

(8.9) 

( 8 . 10 ) 

(9.9) 

(9.10) 

( 10 . 10 ) 


11 12 13 14 15 16 17 18 19 


1.000 

1.000 

1.000 

1.000 

1.000 


0.998 

1.000 


0.992 

0.999 

1.000 

0.984 

0.998 

1.000 

0.972 

0.994 

1.000 

0.958 

0.990 

1.000 

0.975 

0.996 

0.999 

0.949 

0.988 

0.998 

0.916 

0.975 

0.994 

0.879 

0.957 

0.990 

0.900 

0.968 

0.991 

0.843 

0.939 

0.980 

0.782 

0.903 

0.964 

0.762 

0.891 

0.956 

0.681 

0.834 

0.923 

0.586 

0.758 

0.872 


1.000 



1.000 

1.000 


0.999 

1.000 


0.998 

1.000 


0.999 

1.000 

1.000 

0.996 

0.999 

1.000 

0.990 

0.998 

1.000 

0.988 

0.997 

1.000 

0.974 

0.992 

0.999 

0.949 

0.981 

0.996 


1.000 



1.000 



1.000 

1.000 


1.000 

1.000 

1.000 

0.999 

1.000 

1.000 


20 


1.000 
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Tabla A. 20* Tamano muestral para lfmites de tolerancia no parametricos bilaterales 


1 — a 




1-7 



0.50 

0.70 

0.90 

0.95 

0.99 

0.995 

0.995 

336 

488 

777 

947 

1,325 

1,483 

0.99 

168 

244 

388 

473 

662 

740 

0.95 

34 

49 

77 

93 

130 

146 

0.90 

17 

24 

38 

46 

64 

72 

0.85 

11 

16 

25 

30 

42 

47 

0.80 

9 

12 

18 

22 

31 

34 

0.75 

7 

10 

15 

18 

24 

27 

0.70 

6 

8 

12 

14 

20 

22 

0.60 

4 

6 

9 

10 

14 

16 

0.50 

3 

5 

7 

8 

11 

12 


*Reproducida de la tabla A-25d de Wilfrid J. Dixon y Frank J. Massey, Jr., Introduc- 
tion to Statistical Analysis , 3a. ed., McGraw-Hill, Nueva York, 1969. Utilizada con 
autorizacion de McGraw-Hill Book Company. 


Tabla A. 21* 

Tamano muestral 

para 

lfmites de tolerancia 

no parametricos unilaterales 




1-7 



1 — a 

0.50 

0.70 

0.95 0.99 

0.995 

0.995 

139 

241 

598 

919 

1,379 

0.99 

69 

120 

299 

459 

688 

0.95 

14 

24 

59 

90 

135 

0.90 

7 

12 

29 

44 

66 

0.85 

5 

8 

19 

29 

43 

0.80 

4 

6 

14 

21 

31 

0.75 

3 

5 

11 

7 

25 

0.70 

2 

4 

9 

13 

20 

0.60 

2 

3 

6 

10 

14 

0.50 

1 

2 

5 

7 

10 


*Reproducida de la tabla A-25e de Wilfrid J. Dixon y Frank J. Massey, Jr., Introduc- 
tion to Statistical Analysis, 3a. ed., McGraw-Hill, Nueva York, 1969. Utilizada con 
autorizacion de McGraw-Hill Book Company. 
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Tabla A. 22* Valores cnticos del coeficiente de correlacion de rangos de Spearman 


n 

a = 0.05 

a = 0.025 

a. = 0.01 

a = 0.005 

5 

0.900 




6 

0.829 

0.886 

0.943 


7 

0.714 

0.786 

0.893 


8 

0.643 

0.738 

0.833 

0.881 

9 

0.600 

0.683 

0.783 

0.833 

10 

0.564 

0.648 

0.745 

0.794 

11 

0.523 

0.623 

0.736 

0.818 

12 

0.497 

0.591 

0.703 

0.780 

13 

0.475 

0.566 

0.673 

0.745 

14 

0.457 

0.545 

0.646 

0.716 

15 

0.441 

0.525 

0.623 

0.689 

16 

0.425 

0.507 

0.601 

0.666 

17 

0.412 

0.490 

0.582 

0.645 

18 

0.399 

0.476 

0.564 

0.625 

19 

0.388 

0.462 

0.549 

0.608 

20 

0.377 

0.450 

0.534 

0.591 

21 

0.368 

0.438 

0.521 

0.576 

22 

0.359 

0.428 

0.508 

0.562 

23 

0.351 

0.418 

0.496 

0.549 

24 

0.343 

0.409 

0.485 

0.537 

25 

0.336 

0.400 

0.475 

0.526 

26 

0.329 

0.392 

0.465 

0.515 

27 

0.323 

0.385 

0.456 

0.505 

28 

0.317 

0.377 

0.448 

0.496 

29 

0.311 

0.370 

0.440 

0.487 

30 

0.305 

0.364 

0.432 

0.478 


*Reproducida de E. G. Olds, “Distribution of Sums of Squares of Rank Diffe- 
rences for Small Samples”, Ann. Math. Stat., 9, 1938, con autorizacion del editor. 



790 


Apendice A Tablas y pruebas estadisticas 




S o 




CN 





qo 

In 


IN 

CO 

CN 

co 

IN 

CN 

00 

IN 

no 

no 

qo 

I- 

00 

rH 



rH 


qo 

t- 

00 

r—H 

o 

CN 

qo 

rH 

In 


rH 

cq 

IN 

no 

CO 

CN 

o 

cq 

oo 

IN 

qo 

no 





cd fl 

Q 

CN 

iq 

CN 

rH 

cq 

c q 

00 

00 

IN 

IN 

IN 

qq 

qq 

qq 

qq 

qq 

qq 

no 

nq 

nq 

nq 

nq 

no 

no 



5h O 


00 

CN 

CN 

CN 

CN 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 




5 u 




























a a 
$ ^ 

« 






CO 

qo 


CO 

qO 

CO 

IN 

00 

IN 

co 

00 

rH 

co 

no 

no 


co 

rH 

cq 


CO 

Q 






b- 

co 

00 

CN 

no 

oo 

o 

CN 


qo 

b- 

cq 

o 

rH 

CN 

CO 


no 

no 


0 






O 

rH 

rH 

CN 

CN 

CN 

CO 

cq 

cq 

cq 

cq 

cq 









bJO 

fi 

?H CO 
O OJ 


o 

O 

O 

O 

O 

o 

o 

o 

O 

O 

o 

O 

o 

o 

o 

o 

o 

o 

o 

O 

o 

o 

o 

o 


cd 

+H -+J 

U # C 

CO 

CO 

00 

o 


00 

CO 

o 

oo 

IN 


oo 

o 

co 

CO 

o 


cq 


cq 


o 

qO 

CN 

oo 



cd S 


no 

00 

00 

qo 


CO 

CN 

o 

cq 

00 

tN 


qo 

no 

no 


co 

co 

CN 

CN 

CN 

rH 

rH 

o 


05 

Sh 

Cd 

a 

r 

fa ^ 

oo 

o 

00 

o 

00 

o 

00 

o 

00 

o 

00 

o 

00 

o 

00 

o 

In 

o 

In 

o 

IN 

o 

IN 

o 

IN 

o 

IN 

o 

IN 

o 

IN 

o 

IN 

O 

In 

o 

In 

o 

In 

o 

In 

o 

In 

o 

IN 

O 

IN 

o 


cd 3 

m 

no 

b- 

b- 

cq 

qo 

00 

CN 

lb 

cq 

CN 

cq 

00 

no 

o 

rH 

IN 

IN 

1 — 1 

in 

in 

00 

CN 

IN 



cd 

Sh 5h 


qo 

o 

no 

cq 


cq 

rH 

qo 


no 

qo 

cq 

CO 

00 

CO 

00 


z — 1 

In 


rH 

cq 

qo 



o 

Cd 

" — _ 

00 

Cq 

00 

CN 

Cq 

qo 

no 

CO 

CN 

rH 

o 

cq 

cjq 

00 

00 

IN 

IN 

IN 

qo 

qo 

qo 

no 

no 

no 



fa Sh 

0) 

CO O 

a ; 

rH 

00 

no 



cq 

cq 

cq 

cq 

cq 

cq 

cq 

CN 

CN 

CN 

CN 

CN 

CN 

CN 

CN 

CN 

CN 

CN 

CN 

CN 


'05 

u 


© 

O 

CO 

CO 

CO 

o 

o 

o 

o 

cq 

o 

O 

o 

o 

o 

O 

O 

O 

O 

O 

O 

O 

o 

CO 


0 

sh cd 
0 0) 
























































o 'S 
cd *“ 1 


00 

CO 

Cq 

qo 



b- 

o 

00 

CO 

00 

qo 

IN 

CN 

CN 

00 

o 

Cq 

no 

00 

Cq 

00 

no 

rH 



fa JS 

T3 

CM 

cq 

no 

CN 

CO 

o 


ib 

IN 

IN 

no 

co 

o 

IN 

co 

00 


00 

co 

IN 

rH 

no 

cq 

co 



rH 

cq 

O 

CO 

no 

iq 

00 

cq 

cq 

rH 

CN 

cq 


-q 

no 

no 

qq 

qq 

IN 

IN 

00 

00 

00 

Cq 





rH 

rH 

CN 

CN 

CN 

CN 

CN 

CN 

CO 

CO 

CO 

co 

CO 

CO 

CO 

CO 

co 

CO 

CO 

co 

CO 

CO 

co 

CO 



n 0 

(0 

co 

qo 

00 



qo 

rH 

lb 

cq 

In 

o 

no 

CO 


qo 

rH 

qo 

CO 

O 

cq 

00 

00 

cq 

O 


Sh 

S, Sh 

cq 

o 

i- 

00 

CO 

b- 

o 

no 

O 

qo 

CO 

rH 

(X) 

qo 


CN 

rH 

cq 

00 

b- 

no 


CO 

CN 

CN 


cd 

-M 

CO 

CN 

cq 

cq 

00 

00 

b- 

N- 

qq 

qq 

qq 

nq 

no 

no 

no 

no 










T5 

cc c 
b o 


cn 

CN 

CN 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 


'05 

!fl s 



























-+j 

a 

10 





cq 

CO 

cq 

CN 

qo 

CO 

qo 


cq 

rH 

o 

00 

no 

o 


qo 

OO 

cq 

cq 

cq 


CO 

® 

cq 





CN 

rH 

lb 

CO 

IN 

rH 


IN 

cq 

CN 


no 

IN 

cq 

o 

rH 

CN 

CO 


no 


0) 

” H 





cq 

rH 

rH 

CN 

CN 

cq 

cq 

cq 

cq 






nq 

nq 

nq 

nq 

no 

no 


CO 

a> 

x 


o 

O 

O 

o 

o 

o 

o 

co 

cq 

o 

cq 

o 

o 

O 

o 

o 

O 

o 

o 

o 

o 

o 

o 

o 


0) 

0 0) 



























fl 

-+H 4J 


IN 

oo 

qo 

cq 

o 

CN 

no 

rH 

qo 

cq 

qo 

00 


CN 

CN 


00 

CO 

o 

b- 

qo 

no 

no 

no 


O 

2 *3 

cq 

qo 

qo 

qo 

00 

b- 

00 

rH 

qo 

rH 

b- 


rH 

qjq 

IN 

no 

CO 

rH 

o 

cq 

IN 

qo 

no 


co 

, 

•rH 

& S 

CN 

iq 

CN 

cq 

cq 

00 

00 

b- 

b- 

qq 

qq 

qq 

no 

no 

no 

no 

no 

nq 







o 

u 

cd 

fa s 


CO 

CN 

CN 

CN 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

N> 

3 

> 

CO 


to 





o 

00 

no 

cq 


rH 


CN 

qo 

oo 

00 

qo 

CN 

IN 

o 

CO 


no 

no 

no 

o 

0) 


cq 





CO 

rH 

00 

CO 

oo 

CN 

no 

00 

o 

CN 


qo 

00 

cq 

rH 

CN 

CO 


no 

qo 

q; 

T5 






cq 

rH 

rH 

CN 

CN 

cq 

cq 

cq 







nq 

nq 

nq 

nq 

no 

no 

*13 

05 

cd cd 

*H S-H 


o 

o 

O 

O 

o 

o 

o 

O 

O 

o 

o 

o 

o 

O 

o 

o 

o 

o 

o 

o 

o 

o 

O 

o 

CO 

?H 

05 

Cd 


CO 



00 

o 

CO 

CO 

IN 

rH 

CN 

cq 

o 


o 

00 

IN 

00 

o 

CO 

qo 

cq 


cq 

no 

cd 

a s 

CJ 

CO 

00 

no 

CO 

rH 

CN 

qO 

rH 

00 

no 

CN 

rH 

cq 

00 

qo 

no 



CO 

CN 

rH 

rH 

o 

O 

O 

&. 

a) 

no 

CN 

00 

qo 

LO 


CO 

CO 

CN 

CN 

CN 

CN 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

'r^ 

05 

u 

CO O 

a? ^ 
?h cd 

rH 

CN 

rH 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

5h 


rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

bX) 


0 0 


























0) 

'cd 

A 


cq 

CN 

CO 

o 

no 


o 

CO 



qo 


o 

co 

no 

no 


CN 

cq 

qo 

CN 

IN 

CN 

CO 


Sh 

u 'S 

c ^ 

In 

qo 

rH 

o 

rH 

cq 

no 

cq 

CN 

no 

b- 

cq 

rH 

CN 

co 


no 

qo 

qo 

IN 

00 

00 

cq 

cq 


0 

cd ^ 

cq 

00 

CN 


no 

no 

qo 

qo 

IN 

In 

IN 

In 

00 

00 

00 

oo 

oo 

oo 

oo 

00 

00 

00 

00 

00 

'O 

fa jd 

sj 

IN 

00 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

cq 

'8 




O 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

o 

cd 

S-l 

o 

CO 

.2 



























.Q 

Jh 

0) 

g 0 


























"a; 

s 

J2 sh 



























o 

cd 3 


cq 


00 

i- 

b- 

CN 

cq 

CN 

no 


qO 

o 

IN 

cq 

co 

cq 

oo 

oo 

o 

co 

tN 

co 

cq 

qo 

cd 


S-i o 

CO 

no 

n^ 

CN 

CN 

00 

00 

cq 

CO 

tN 

CN 

00 

no 

rH 

oo 

qo 

co 

rH 

cq 

oo 

qo 


CO 

rH 

O 

fa 

5 S 


cq 

cq 

qq 


CN 

rH 

o 

cq 

cq 

cq 

00 

00 

00 

IN 

IN 

IN 

IN 

qq 

qq 

qq 

qq 

qq 

qq 

qq 

cd 

a 

05 

S-l 

fa 

0 

W T5 


CN 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

o 

o 

o 

O 

o 

O 

O 

O 

O 

o 

o 

o 

o 

o 

o 

o 

CO 

cd 

CD 


























a; 

a 

Sh CO 


























Hi 

0 0) 


























o 

u 

cd 

05 

u 

'cd 

-4-> 

Sd a 


O 

CO 

Cq 


CO 

Cq 

CO 

IN 

00 

no 

qo 

Cq 

no 

CO 

CN 

CO 


IN 

o 

CO 

in 

CN 

IN 

co 

fa 

fa 3 

(N 

00 

CN 

CN 

b- 

00 

rH 

b- 

CO 

o 

00 

qo 


CO 

CN 

rH 

o 

Cq 

00 

00 

IN 

qo 

qo 

no 

no 



00 

o 

IN- 

iq 



cq 

cq 

cq 

CN 

CN 

CN 

CN 

CN 

CN 

CN 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

rH 

* 

CO 

0 



rH 

rH 

CO 

o 

o 

o 

o 

o 

o 

O 

O 

O 

O 

o 

O 

o 

o 

o 

o 

o 

o 

o 

o 

o 

(M 



























< 


jd 

g 

























jd 

3 

jtf 


S 

0) 

CO 

cd 

Sh 

CO 

<D 

CN 

co 


kO 

CO 


oo 

cq 

10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

21 

22 

23 

24 

25 

H 


rfa 




























o 

S 



























Section A. 25 Prueba de la media de la distribution hipergeometrica 


791 


Tabla A. 24 La funcion gamma incompleta: F(x\ a) = f* r ^ a ^ y a 1 e v dy 


X 





Of 





1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

1 

0.6320 

0.2640 

0.0800 

0.0190 

0.0040 

0.0010 

0.0000 

0.0000 

0.0000 

0.0000 

2 

0.8650 

0.5940 

0.3230 

0.1430 

0.0530 

0.0170 

0.0050 

0.0010 

0.0000 

0.0000 

3 

0.9500 

0.8010 

0.5770 

0.3530 

0.1850 

0.0840 

0.0340 

0.0120 

0.0040 

0.0010 

4 

0.9820 

0.9080 

0.7620 

0.5670 

0.3710 

0.2150 

0.1110 

0.0510 

0.0210 

0.0080 

5 

0.9930 

0.9600 

0.8750 

0.7350 

0.5600 

0.3840 

0.2380 

0.1330 

0.0680 

0.0320 

6 

0.9980 

0.9830 

0.9380 

0.8490 

0.7150 

0.5540 

0.3940 

0.2560 

0.1530 

0.0840 

7 

0.9990 

0.9930 

0.9700 

0.9180 

0.8270 

0.6990 

0.5500 

0.4010 

0.2710 

0.1700 

8 

1.0000 

0.9970 

0.9860 

0.9580 

0.9000 

0.8090 

0.6870 

0.5470 

0.4070 

0.2830 

9 


0.9990 

0.9940 

0.9790 

0.9450 

0.8840 

0.7930 

0.6760 

0.5440 

0.4130 

10 


1.0000 

0.9970 

0.9900 

0.9710 

0.9330 

0.8700 

0.7800 

0.6670 

0.5420 

11 



0.9990 

0.9950 

0.9850 

0.9620 

0.9210 

0.8570 

0.7680 

0.6590 

12 



1.0000 

0.9980 

0.9920 

0.9800 

0.9540 

0.9110 

0.8450 

0.7580 

13 




0.9990 

0.9960 

0.9890 

0.9740 

0.9460 

0.9000 

0.8340 

14 




1.0000 

0.9980 

0.9940 

0.9860 

0.9680 

0.9380 

0.8910 

15 





0.9990 

0.9970 

0.9920 

0.9820 

0.9630 

0.9300 


A. 25 Prueba de la media de la distribucion hipergeometrica 

Para calcular la media de la distribucion hipergeometrica, escribimos 


E(X) = E 


n fk\ / N—k\ 
\xJ V n—x ) 


(N\ 




(* - 1)! 


(N-k\ 
V n—x ) 


. , (x — 1 )\(k — x)\ ( N ) 

cc=0 \nJ x=l ' ' ' ' \n) 

n (k-l\ (N—k\ 

7 \ ^ Vx — 1/ \n—x) 

= fc E — — ■ 

x=l \n) 


Puesto que 


N -k 
n-l-y 


( N — 1) — (k — 1)\ fN 

n — 1 — y J \n 


Nl 


N fN - 1 


n\(N — n)! n \n — 1 


y con y = x — 1, obtenemos 


n— 1 C fc - ls \ ( N ~ k ) 

E(X) = fcE ' V Kn ~ X ~ v 

y = 0 




n j t 'XA ( k 1 )( < ^ Ar ^ 1 b nk 

llrb \ \ V y ) V n—l — y ) 


n— 1 (k 

/£Av V y 

” Iv 2-*t 


y=0 


(E 1 ) 


N ’ 


ya que la sumatoria representa el total de todas las probabilidades en un experimento hipergeometrico 
cuando N — 1 articulos se seleccionan al azar de N — 1, de los cuales k — 1 son exitos marcados. 
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A. 26 Prueba de la media y la varianza de la distribution de Poisson 


Sea p = At. 


E(X) = ^>- 

rc— 0 


x\ 


E x - 


e~^p x 

x\ 


mE 


e~^p x ~ 1 
( x - !)• ’ 


Puesto que la sumatoria en el ultimo termino de la expresion anterior es la probabilidad total de una 
variable aleatoria de Poisson con media p, la cual puede verse con facilidad con y = x — 1, y es igual a 1. 
Por lo tanto, E(X) = p. Para calcular la varianza de X, note que 


o° _ fl . 

E[X(X- l)} = Y J x(; x -l) e —£ 

x=0 



x—2 


e~»p x ~ 2 

(x 2 )\ 


De nuevo, sea y = x — 2, la sumatoria en el ultimo termino de la expresion anterior es la probabilidad 
total de una variable aleatoria de Poisson con media p. Entonces, obtenemos 


a 2 = E{X 2 ) - [E(X)f = E[X(X - 1)] + E(X) - [E{X )} 2 = p 2 +p-p 2 = p = A t. 


A. 27 Prueba de que la distribucion de Poisson es una limitante 
de la binomial 

La distribucion binomial se puede escribir como 


/ 77 \ 77 ' 

b(x;n,p) = )p x q n - x = ———p x (l -pY 
\x J x\(n — x)\ 


n(n — 1) • • • (n — x + 1) 


p x (i-pY 


A1 sustituir p = p/n , 


n(n — 1) • • • (n — x + 1) { p\ f py<-~* 

b(x-n,p) = j - 1 - - 

xl \n/ V nJ 


n) \ n J x\ \ nJ \ n; 


Conforme n — > oo, siempre que x y y permanezcan constantes, 


lfm 1(1 — — 

n— kx) \ n 


1-ill Ui, 0 - - 

n ) n — kx) V n 


y a partir de la definicion de e, 


( /i \ n 

1 ) = Inn ■ 

Tl J 71— >■ OO 


1 + 


(~n)/p 


-«/m' 


Por lo tanto, bajo las condiciones limitantes dadas, 


b(x-,n,p) 


e~ fi p x 

x\ 


x = 0,1,2,.... 



Section A. 28 Prueba de la media y la varianza de la distribution gamma 
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A. 28 Prueba de la media y la varianza de la distribucion gamma 

Para calcular la media y la varianza de la distribucion gamma, calculamos primero 


E(X k ) = 


/3“I>) J o 


v a + k -i e -xlt> dx = 


(3 k+a T(a + k) r°° x^+k-ie-x/p 
(3<*Y(a) Jo (3 k + a T(a + k) 


dx, 


para k = 0, 1, 2 , . Puesto que el integrando en el ultimo termino de la expresion anterior es una fun- 
cion de densidad gamma, con parametros a + k y /?, y es igual a 1. Entonces, 


E(X k ) = (3' 


, k T(k + a) 


P(a) 


Usando la formula de recurrencia de la funcion gamma de la pagina 194, obtenemos 


r(a + 1) 

P = P tv s = a/3 
T{a) 


o 2 = E(X 2 ) — /j 2 = / 3 2 - -J-r - — /r 2 = (3 2 a(a + 1) — (a/3) 2 = a/3 2 . 

T(a) 




Apendice B 

Respuesta a los ejercicios 
de repaso impares 


Capftulo 1 


6) 175 es un valor extremo. 


1.1 a) Tamano de la muestra =15 

b) Media de la muestra = 3.787 

c) Mediana de la muestra = 3.6 
e) £ tr ( 20 ) = 3.678 


1.3 b) Si, el proceso de envejecimiento redujo la re- 
sistencia a la tension. 

c) ^envejecimiento = 209.90, it'No envejecimiento — 
222 . 10 . 

d) ^envejecimiento = 210.00, .7.‘No envejecimiento — 

221.50. Las medias y las medianas son simi- 
lares en cada grupo. 

1.5 b) Control: x = 5.60, x = 5.00, aitr(io) = 5.13. 

Tratamiento: x = 7.60, x = 4.50, itqio) = 5.63. 
c) El valor extremo de 37 en el grupo de trata- 
miento desempena un papel significativo en 
el calculo de la media. 


1.7 Varianza de la muestra = 0.943 

Desviacion estandar de la muestra = 0.971 


1.9 Sin envejecimiento: varianza de la muestra = 23.62, 
desviacion estandar de la muestra = 4.86. 

Con envejecimiento: varianza de la muestra = 42.12, 
desviacion estandar de la muestra = 6.49. 

1.11 Control: varianza de la muestra = 69.38, 
desviacion estandar de la muestra = 8.33. 
Tratamiento: varianza de la muestra = 128.04, 
desviacion estandar de la muestra = 11.32. 


1.13 a) Media = 124.3, mediana = 120; 


1.15 Si, el valor P= 0.03125; probabilidad de obtener 
H H H H H con una moneda legal. 


1.17 No fumadores a) 30.32, b) 7.13; 

Fumadores a) 43.70, b) 16.93. 

d) Parece que a los fumadores les toma mas tiem- 
po quedarse dormidos. Para los fumadores el tiempo 
para quedarse dormido es mas variable. 


Tallo 

Hojas 

Frecuencia 

0 

22233457 

8 

1 

023558 

6 

2 

035 

3 

3 

03 

2 

4 

057 

3 

5 

0569 

4 

6 

0005 

4 


6) Intervalo Punto medio Free. 


de clase 

de la clase 

Free. 

rel. 

0.0— 0.9 

0.45 

8 

0.267 

1.0-1. 9 

1.45 

6 

0.200 

2. 0-2. 9 

2.45 

3 

0.100 

3.0— 3.9 

3.45 

2 

0.067 

4.0— 4.9 

4.45 

3 

0.100 

5. 0-5. 9 

5.45 

4 

0.133 

6.0— 6.9 

6.45 

4 

0.133 


c) Media de la muestra = 2.7967 
Rango de la muestra =6.3 
Desviacion estandar de la muestra = 2.2273 


1.21 o) Media de la muestra = 1.7742 
Mediana de la muestra = 1.77 

6) Desviacion estandar de la muestra = 0.3905. 
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1.23 b) i lg90 = 160.15, ii980 = 395.10. 

c) Las emisiones medias cayeron entre 1980 y 
1990, la variabilidad tambien disminuyo por- 
que no hubo emisiones extremadamente mas 
grandes. 

1.25 a) Media de la muestra = 33.31 

b) Media de la muestra = 26.35 

d) *tr(io) = 30.97 


Capftulo 2 

2.1 a) S = {8, 16, 24, 32, 40,48} 

b) S={- 5, 1} 

c) S = {T, HT, HHT, HHH} 

d) S = {Africa, Antartica, Asia, Australia, Eu- 
ropa, Norteamerica, Sudamerica} 

e) S = cj) 

2.3 A = C 

2.5 S ={1 HH, 1 HT, 1TH, ITT, 2 H, 2T, 3 HH, 
3 HT, 3 TH, 3 TT, 4 H, 4 T, 5 HH, 5 HT, 5 TH, 
5 TT, 6 H, 6 T} 


2.7 Si = {MM MM, MMMF, MMFM, MFMM, 
FMMM, MMFF, MFMF, MFFM, FMFM, 
FFMM, FMMF, MFFF, FMFF, FFMF, 
FFFM, FFFF}; 

*={0,1, 2, 3, 4} 

2.9 a) A= {IHH,IHT,ITH,ITT,2H,2T} 

b ) B = {ITT, 3TT,5TT} 

c) A ={3HH,3HT,3TH,3TT,4H,4T, 

5 HH, 5 HT, 5 TH, 5 TT, 6 H, 6 T} 

d) A n B = {3 TT, 5 TT} 

e) A U B={1HH, 1HT, 1TH, ITT, 2H, 2T, 

3 TT, 5TT} 

2.11 cl ) ,S'={ A/] M 2 , A/| /'1 . A/| E 2 , hf‘ 2 M\ . M 2 b \ , 
M 2 F 2 , Mi, Ei M 2 , E 1 E 2 , E 2 M 1 , E 2 M 2 , 
E 2 Ei} 

b) A — {MiM 2 , Mi Ei, Mi E 2i M 2 M 1 , M 2 Ei, 

m 2 e 2 } 

c) B = {Mi Ei, M 1 E 2 , M 2 Ei, M 2 F 2 , E 1 M 1 , 
Ei M 2 , E 2 Mi, E 2 A/ 2 } 

d) C= {EiE 2 ,E 2 Ei} 

e) A H B = {Mi Ei, MiE 2 , M 2 Ei, M 2 E 2 } 


/) A U C={MiM 2 , Mi Ei, Mi E 2 , M2 Mi, 
M 2 Ei, M 2 E 2 , EiE 2 , E 2 Ei} 

.15 o) {nitrogeno, potasio, uranio, oxfgeno} 

6) {cobre, sodio, zinc, oxfgeno} 

c) {cobre, sodio, nitrogeno, potasio, uranio, zinc} 

d) {cobre, uranio, zinc} 

e) <}> 

/) {oxfgeno} 

.19 a) La familia experimentara fallas mecanicas, 
pero no recibira una boleta de infraccion por 
cometer una falta de transito, y no llegara a 
un lugar para acampar que este lleno. 

6) La familia recibira una boleta por cometer 
una falta de transito, y llegara a un lugar 
para acampar que este lleno, pero no experi- 
mentara fallas mecanicas. 

c) La familia experimentara fallas mecanicas y 
llegara a un lugar para acampar que este lle- 
no. 

d) La familia recibira una boleta por cometer 
una falta de transito, pero no llegara a un 
lugar para acampar que este lleno. 

e) La familia no experimentara fallas mecanicas. 

.21 18 
.23 156 
.25 20 
.27 48 
.29 210 

.31 a) 1024; b ) 243 
.33 72 
.35 362,880 
.37 2,880 

.39 a) 40,320; b) 336 

.41 360 

.43 24 

.45 3,360 

.47 7,920 

.49 56 


2, 

2 , 

2 , 

2, 

2 , 

2 , 

2 , 

2, 

2 , 

2 , 

2 , 

2 , 

2 , 

2 , 

2 , 

2 , 

2 , 


Capitulo 3 
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2.51 a) La suma de las probabilidades excede 1. 

b) La suma de las probabilidades es menor que 1 . 

c) Una probabilidad negativa. 

d) La probabilidad de tanto un corazon como 
una carta negra es cero. 

2.53 S = {$10, $25, $100}; P(10) = P(25) = 

P(100) = j(|j; 2^ 

2.55 a) 0.3; b) 0.2 

2.57 a) 5/26; b) 9/26; c) 19/26 

2.59 10/117 


2.97 

a) 

91/323; b) 91/323. 

2.93 

a) 

0.75112; b) 0.2045. 

2.101 

0.0960 

2.103 

0.40625 

2.105 

0.1124 

2.107 

a) 

0.045; b ) 0.564; c) 0.630; d) 0.1064 


Capitulo 3 


2.61 95/663 

2.63 a) 94/54,145; b ) 143/39,984 

2.65 a) 22/25; b) 3/25; c) 17/50 

2.67 a) 0.32; b ) 0.68; c) oficina o estudio 

2.69 a) 0.8; b ) 0.45; c) 0.55 

2.71 a) 0.31; b) 0.93; c) 0.31 

2.73 a) 0.009; b) 0.999; c) 0.01 

2.75 a) 0.048; b) $50,000; c) $12,500 

2.77 a) La probabilidad de que un convicto promo- 
viera el consumo de drogas y tambien come- 
tiera robo a mano armada. 

b) La probabilidad de que un convicto come- 
tiera robo a mano armada y no promoviera 
el consumo de drogas. 

c) La probabilidad de que un convicto no pro- 
moviera el consumo de drogas ni tampoco 
cometiera robo a mano armada. 

2.79 a) 14/39; b ) 95/112 

2.81 a) 5/34; b) 3/8 

2.83 a) 0.018; b) 0.614; c) 0.166; d) 0.479 
2.85 a) 0.35; b ) 0.875; c) 0.55 
2.87 a) 9/28; b ) 3/4; c) 0.91 
2.89 0.27 
2.91 5/8 

2.93 a) 0.0016; b) 0.9984. 

2.95 a) 1/5; b) 4/15; c) 3/5. 


3.1 Discreta; continua; continua; discreta; discreta; 
continua. 


Espacio muestral w 

HHH 

3 

HHT 

1 

HTH 

1 

THH 

1 

HTT 

-1 

THT 

-1 

TTH 

-1 

TTT 

-3 

3.5 a) 1/30; b ) 1/10 

3.7 a) 0.68; b ) 0.375 

3.9 b) 19/80 

3.11 ^ 

0 12 

f(%) 

2 4 1 

7 7 7 


3.13 


F{x) 


o, 

para x < 0, 

0.41, 

para 0 < x < 1, 

0.78, 

para 1 < x < 2, 

0.94, 

para 2 < x < 3, 

0.99, 

para 3 < x < 4, 

1, 

para a; > 4 


3.15 


F( X ) = 


para x < 0, 
tj, para 0 < x < 1, 
y, para 1 < x < 2, 
1, para x > 2 


a) 4/7; b) 5/7 
3.17 b ) 1/4; c) 0.3 

3.19 F(x) = (x — l)/2, para 0 < x < 3; 1/4 


3.21 a) 3/2; b) F{x) = * 3/2 , para 0 < a; < 1; 0.3004 
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3.23 0, para w < —3, 

2y , para — 3 < w < — 1, 

F(w) = 27, para — 1 < w < 1, 

para 1 < w < 3, 


3.25 


u 

para w > 3 

0) 20/27; b ) 2/3 

t 

20 25 30 

P(T = t ) 

13 1 

5 5 5 


3.27 a) 


F(x) = 


0, 


1 — exp(— x/2000), 
b) 0.6065; c) 0.6321 


x < 0, 
x > 0. 


3.29 

b) 

fn 



n*) = -|’ -j 



11 — re 

3.31 

a) 

0.2231; b ) 0.2212 

3.33 

a) 

k = 280; 5) 0.3633: 

3.35 

a) 

0.1528; b) 0.0446 

3.37 

a) 

1/36; b) 1/15 

3.39 

a) 



x < 1, 

X > 1 . 


c) 0.0156 


f(x,y) 


y 

b) 1/2 


0 

_ 2 _ 

1 

70 


1 

-3- 

2 

1 

70 


2 

"IT" 

2 

2 

70 


3 

1 

70 


3.41 a) 1/16; b) g(x) = 12rc(l — x) 2 , para 0 < x < 1; 
c) 1/4 

3.43 a) 3/64; b ) 1/2 
3.45 0.6534 

3.47 a) Dependiente; b) 1/3 

3.49 a) 


b ) 


X 

1 

2 

3 

9(x) 

0.10 

0.35 

0.55 

y 

1 

2 

3 

h(y) 

0.20 

0.50 

0.30 


c) 0.5714 

3.51 a) 


f(x,y) 


y 

b) 11/12 


0 

~nr 

I 

1 

36 


36 

0 


2 

~T" 

M 

0 


3.53 a) 


f Of', y) 

0 

2/ 1 
2 
3 

b ) 42/55 

3.55 5/8 

3.57 Independiente 
3.59 a) 3; b) 21/512 
3.61 Dependiente 


0 

f 

f 

¥ 

55 


55 

0 


55 

0 


3 

~r 

55 

0 

0 

0 


Capitulo 4 

4.1 0 

4.3 25 centavos 
4.5 0.88 
4.7 $500 
4.9 $1.23 
4.11 $6,900 
4.13 (ln4)/7r 
4.15 100 horas 
4.17 209 
4.19 $1,855 
4.21 $833.33 

4.23 o) 35.2; b) p x = 3.20, p Y = 3.00 

4.25 2 

4.27 2,000 horas 
4.29 b) 3/2 
4.31 a) 1/6; b ) (5/6) 5 
4.33 $5,250,000 

4.35 0.74 

4.37 1/18; en ganancia real la varianza es yg (5000) 2 

4.39 1/6 


Capitulo 5 
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4.41 118.9 

4.43 p Y = 10; ay = 144. 

4.45 a X y = 0-005 
4.47 —0.0062 

4.49 a 2 x = 0.8456; = 0.9196 

4.51 10.33; 6.66 
4.53 80 centavos 
4.55 209 

4.57 p = 7/2; a 2 = 15/4 
4.59 3/14 
4.61 0.03125 
4.63 0.9340 
4.65 52 

4.67 a) Cuando mas 4/9; b ) al menos 5/9; 
c) al menos 21/25; d) 10. 

4.69 a) 7; b) 0; c) 12.25 

4.71 46/63 

4.73 a) 2.5; 2.08 

4.75 a) E(X) = E(Y ) = 1/3 y Var{X) = 
Var(Y ) = 4/9; b) E(Z ) = 2/3 y Var(Z) = 

8/9 

4.77 a) 4; b) 32; 16 

4.79 Mediante calculo directo, E(e y ) = 1,884.32. Con 
aproximacion de ajuste de segundo orden, E(e Y ) 
~ 1,883.38, que es muy cercano al valor real. 


Capitulo 5 

5.1 3/10 

5.3 p = 5.5; a 2 = 8.25 

5.5 a) 0.0480; b) 0.2375; c) P(X = 5|p = 0.3) = 
0.1789, P = 0.3 es razonable. 

5.7 a) 0.0474; b) 0.0171 

5.9 a) 0.7073; b) 0.4613; c) 0.1484 


5.11 0.1240 
5.13 0.8369 

5.15 a) 0.0778; b ) 0.3370; c) 0.0870 
5.17 p ± 2cr = 3.5 ± 2.05 

5.19 f(x 1 ,x 2 ,x 3 ) = ( a , liX n 2iX3 )0.35 :j:i 0.05 a:2 0.60 X3 

5.21 0.0095 
5.23 0.0077 
5.25 0.8670 

5.27 a) 0.2852; b ) 0.9887; c) 0.6083 
5.29 a) 0.3246; b ) 0.4496 
5.31 5/14 

5.33 h(x; 6, 3, 4) = ^ * , para x = 1, 2, 3; 

P{ 2 < X < 3) = 4/5 

5.35 0.9517 

5.37 a) 0.6815; b ) 0.1153 

5.39 3.25; desde 0.52 hasta 5.98 

5.41 0.9453 

5.43 0.6077 

5.45 a) 4/33; b ) 8/165 

5.47 0.2315 

5.49 a) 0.3991; b ) 0.1316 
5.51 0.0515 

5.53 a) 0.3840; b ) 0.0067 
5.55 63/64 

5.57 a) 0.0630; b ) 0.9730 

5.59 a) 0.1429; b ) 0.1353 

5.61 a) 0.1638; 6) 0.032 

5.63 a) 0.3840; 6) 0.1395; c) 0.0553 

5.65 0.2657 

5.67 a) p = 4:- a 2 = 4; 6) Desde 0 hasta 8. 

5.69 a) 0.2650; b ) 0.9596 
5.71 a) 0.8243; b ) 14 


Apendice B Respuesta a los ejercicios de repaso impares 


800 




5.73 

4 



5.75 

5.53 x 10 

- 4 . 

2 

p = 7.5 

5.77 

a) 0.0137; 

b) 

0.0830 

5.79 

0.4686 




Capitulo 6 


6.1 

a) 

0.9236; b) 0.8133; 

c) 0.2424; 


d) 

0.0823; e) 0.0250; 

/) 0.6435 

6.3 

a) 

-1.72; b) 0.54; c) 

1.28 

6.5 

a) 

0.1151; b ) 16.1; c) 

20.275; d) 0.5403 

6.7 

a) 

0.8980; b ) 0.0287; 

c) 0.6080 

6.9 

a) 

0.0548; b ) 0.4514; 

c) 23; 


d) 

189.95 mililitros 


6.11 

a) 

0.0571; b) 99.11%; 

c) 0.3974; 


d) 

27.952 minutos; e] 

) 0.0092 

6.13 

6.24 anos 


6.15 

a) 

51%; b) $18.37 


6.17 

a) 

0.0401; b ) 0.0244 


6.19 

26 



6.21 

a) 

0.6; b) 0.7; c) 0.5 


6.23 

a) 

0.8006; b) 0.7803 


6.25 

a) 

0.3085; b) 0.0197 


6.27 

a) 

0.9514; b) 0.0668 


6.29 

a) 

0.1171; b) 0.2049 


6.31 

0.1357 


6.33 

a) 

0.0778; b) 0.0571; 

c) 0.6811 

6.35 

a) 

0.8749; b ) 0.0059 


6.37 

a) 

0.0228; b) 0.3974 


6.39 

2.8e -1 ' 8 - 3.4e -2 ' 4 = 

= 0.1545 

6.43 

a) 

p = 6; a 2 = 18; 



b) 

desde 0 hasta 14.485 millones de litros. 

6.45 

E ©(l-e- 3/4 n 

31=4 

e -3 /4)6-x _ 0.3968 


6.47 a) ^F/2 = 1.2533; b ) e~ 2 
6.49 e~ 4 = 0.0183 

6.51 a) p = a/3 = 50; b) cr 2 = a/3 2 = 500; 
a = 7500; c) 0.815 

6.53 a) 0.1889; 6) 0.0357 

6.55 Media=e 6 , varianza=e 12 (e 4 — 1) 

6.57 a ) e~ 10 ; b) (3 = 0.10 


Capitulo 7 

7.1 c/(t/) = 1/3; para y = 1, 3, 5 

7.3 


5(yi,Y2) = 


V1+V2 Vl —V2 O _ 
2 ! 2 1 z 


2/1 


X 4 


{yi+V2)/2 /^\ (yi~vA/ 2 / g \ 2-yi 


12 


para yi = 0, 1, 2; y 2 = -2, -1, 0, 1, 2; 

2/2 < 2 / 1 ! 2/1 + 2/2 = 0 , 2,4 

7.7 Distribution gamma con a = 3/2 y f3 = m/2b 
7-9 a) g(y) = 32/y 3 , para y > 4; &) 1/4 
7.11 ^(z) = 2(1 — 2), para 0 < 2 < 1 
7.13 /i(u>) = 6 + 6w — 12W 1 / 2 , para 0 < w < 1 


7-15 g(y) = l ^ 


9Vv 


0 < y < 1, 

1 < y < 4 


7.19 Ambas son iguales a p 

7.23 a) Gamma(2,l); fo) Uniforme(0,l) 


Capitulo 8 

8.1 o) Las repuestas de todas las personas en Rich- 
mond que tienen un telefono; 

6) Resultados para un numero grande o infini- 
to de lanzamientos de una moneda; 

c) Periodo de vida de tal calzado deportivo cuan- 
do es utilizado en el torneo profesional; 

d) Todos los posibles intervalos de tiempo para 
esta abogada que maneja desde su casa has- 
ta su oficina. 


Capitulo 9 
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8.3 a) x = 2.4; b) x = 2; c) m = 3 

8.5 a) x = 3.2 segundos; b) x = 3.1 segundos 

8.7 a) 53.75; b) 75 y 100 

8.9 a) El rango es 10; b) s = 3.307 
8.11 a) 2.971; b) 2.971 
8.13 s = 0.585 
8.15 a) 45.9; b) 5.1 
8.17 0.3159 

8.19 a) Se reduce de 0.7 a 0.4; 

b) Se incrementa de 0.2 a 0.8 

8.21 Si. 

8.23 a) ix = 5.3; <r 2 = 0.81; 

b) px = 5.3; = 0.0225; 

c) 0.9082 

8.25 a) 0.6398; b ) 7.35 

8.29 0.5596 

8.33 a) 0.1977; b ) No 

8.35 a) 1/2; b) 0.3085 

8.37 P(X < 775|m = 760) = 0.9332 

8.39 a) 27.488; b ) 18.475; c) 36.415 

8.41 a) 0.297; b) 32.852; c) 46.928 

8.43 a) 0.05; b) 0.94 

8.47 a) 0.975; b) 0.10; c) 0.875; d) 0.99 

8.49 a) 2.500; b) 1.319; c) 1.714 

8.51 No; /x > 20 

8.53 a) 2.71; b) 3.51; c) 2.92; 

d) 0.47; e) 0.34 

8.55 La razon F es 1.44. Las varianzas no son signifi- 
cativamente diferentes. 

Capitulo 9 

9.5 0.3097 < p < 0.3103 

9.7 a) 22,496 < p < 24,504; b ) error < 1004 


9.9 35 
9.11 56 

9.13 0.978 < /x < 1.033 

9.15 47.722 < /x < 49.278 

9.17 323.946 hasta 326.154 

9.19 11,426 hasta 35,574 

9.23 La varianza de S' 2 es menor. 

9.25 (6.05,16.55) 

9.27 (1.6358, 5.9376) 

9.29 Lfmite de prediction superior: 9.42; 

Lfmite de tolerancia superior: 11.87 

9.33 Si, el valor de 6.9 esta fuera del intervalo de pre- 
diction. 

9.35 2.9 < Mr - /X2 < 7.1 
9.37 2.80 < Mi - M2 < 3.40 
9.39 1.5 < Mi ~ M2 < 12.5 
9.41 0.70 < Mi - M2 < 3.30 
9.43 —6,536 < mi ~ M2 < 2,936 
9.45 (-0.74, 6.29) 

9.47 (-6.92, 36.70) 

9.49 0.54652 < Ms - Ma < 1.69348 

9.51 a) 0.498 < p < 0.642; b) error < 0.072 

9.53 0.194 < p < 0.262 

9.55 a) 0.739 < p < 0.961; b) no 

9.57 a) 0.644 < p < 0.690; b) error < 0.023 

9.59 2,576 

9.61 160 

9.63 16,577 

9.65 —0.0136 < pf — Pm < 0.0636 

9.67 0.0011 < pi - p 2 < 0.0869 

9.69 (—0.0849, 0.0013); no es significativamente dife- 
rente. 

9.71 0.293 < a 2 < 6.736; la afirmacion es valida 
9.73 1.863 < cr < 3.578 
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9.75 9.265 < a < 34.16 
9.77 0.545 < a i/a 2 < 2.690 
9.79 0.016 < al/ a* < 0.454; no 

n 

9-81 £ E 

i = 1 


9.83 CL) L(xi , X2 ; • ■ • ,iCn) — 


71 / \ 

^n(i) 


(2 7 r )"/ 2 

& ) A = ^ E lna; i; 


- £ (lnx,— ^) 2 /2<7 2 

e i=1 


7=1 


= 1 E 

n 


In s, 


£ E ln *j 


1=1 


9.85 a; lnp + (1 — x) ln(l — p). Sea la derivada con res- 
pecto ap = 0;p = i = 1.0 


Capitulo 10 


10.21 a = —2.76; si', p < 40 meses; 
valor P = 0.0029 

10.23 z = 8.97; si' p > 20,000 kilometros; 
valor P < 0.001 

10.25 t = 0.77; no rechace Ho. 

10.27 z = 12.72; valor P < 0.0005 

10.29 t = —1.98; rechace Ho; valor P= 0.0312 

10.31 z = —2.60; concluya que p A — p B < 12 kilogramos. 

10.33 t = 1.50; no liay evidencia suficiente para concluir 
que el incremento en la concentration de sustrato 
causarfa un incremento en la velocidad media en 
mas de 0.5 micromoles por 30 minutos. 

10.35 t = 0.70; no hay suficiente evidencia de que el 
suero sea efectivo. 

10.37 t = 2.55; rechace Ho'. p\ — p 2 > 4 kilometros. 

10.39 t! = 0.22; no rechace Hq. 

10.41 t' = 2.76; rechace Hq. 

10.43 t = 2.48; valor P < 0.02; rechace Ho. 


10.1 a) Concluya que menos del 30% del publico son 
alergicos a ciertos productos de queso cuan- 
do, de hecho, 30% o mas son alergicos. 

b) Concluya que menos del 30% del publico son 
alergicos a ciertos prdoductos de queso cuan- 
do, de hecho, menos del 30% lo son. 

10.3 a) La empresa no es culpable; 

b) la empresa es culpable. 

10.5 a) 0.1286; 

b) /3= 0.0901; /3 = 0.0708. 

c) La probabilidad de un error tipo I es un tan- 
to grande. 

10.7 a) 0.0559; 

b) P = 0.0017; P = 0.00968; p = 0.5557 

10.9 a) a = 0.0032; b) p = 0.0062 
10.11 a) a = 0.1357; b) p = 0.2578 
10.13 a) a = 0.0094; b) p = 0.0122 
10.15 a) a = 0.0718; b) p = 0.1151 
10.17 a) a = 0.0384; b) P = 0.5; P = 0.2776 
10.19 z = -1.64; valor P = 0.10 


10.45 t = —2.53; rechace Ho; la affirmation es valida. 

10.47 n = 6 

10.49 78.28 ~ 79 debido al redondeo. 

10.51 5 

10.53 O.) Hq\ HTcaliente -%fno 0, 

Hr. Mcaliente — A/frio ^ 0, 

b) t apareada, t = 0.99; valor P > 0.30; no re- 
chace Hq. 

10.55 Valor P = 0.4044 = (con una prueba de una 
cola); no se refuta la afirmacion. 

10.57 Valor P= 0.0207; sf, la moneda no es legal. 

10.59 z = —5.06 y valor Pm 0; concluya que menos 
de 1/5 de los hogares se calienta con petroleo. 

10.61 z = 1.44; no rechace Hq. 

10.63 z = 2.36 con valor P = 0.0182; sf, la diferencia 
es significativa. 

10.65 z = 1.10 con valor P = 0.1357; no tenemos evi- 
dencia suficiente para concluir que el cancer de 
mama sea mas frecuente en las comunidades 
urbanas. 
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10.67 \ 2 = 18.13 con valor P = 0.0676 (de la salida 
del programa); no rechace Hq : o 1 = 0.03. 

10.69 \ 2 = 63.75 con valor P = 0.8998 (de la salida 
del programa); no rechace Hq. 

10.71 \ 2 = 42.37 con valor P — 0.0117 (de la salida 
del programa); la maquina esta fuera de con- 
trol. 

10.73 / = 1.33 con valor P = 0.3095 (de la salida del 
programa); no rechace Ho : <ji = < 72 . 

10.75 / = 0.75 con valor P = 0.3186 (de la salida del 
programa); no rechace Hq: cri = <72. 

10.77 / = 19.6 con valor P = 0.0008 (de la salida del 
programa); rechace Hq: <ji = < 72 . 

10.79 x 2 = 4.47; no hay evidencia suficiente para afir- 
mar que la moneda no sea legal. 

10.81 x 2 = 10.14; rechace Ho, la razon no es 5:2:2:1. 

10.83 x 2 = 2.33; no rechace Hq-. distribution bino- 
mial. 

10.85 x 2 = 2.57; no rechace Hq: distribution geome- 
trica. 

10.89 x 2 = 5.19; no rechace Hq: distribution normal. 

10.91 x 2 = 5.47; no rechace Hq. 

10.93 x 2 = 124.59; si la ocurrencia de estos tipos de 
delitos es dependiente del distrito de la ciudad. 

10.95 x 2 = 31.17 con valor P < 0.0001; las actitudes 
no son homogeneas. 

10.97 x 2 = 5.92 con valor P = 0.4332; no rechace Hq. 

10.99 x 2 = 1-84; no rechace Hq. 


Capitulo 

11 

11.1 

a) 

a = 

64.529, b = 0.561; 


b ) 

V = 

81.4 

11.3 

a) 

V = 

6.4136 + 1.8091a;; 


b ) 

y = 

9.560 a temperatura 1.75 

11.5 

a) 

y = 

5.8254 + 0.5676a;; 


c) 

y = 

34.205 a 50 °C 

11.7 

b) 

y = 

343.706 + 3.221a;; 



c) 

y = $456 donde los costos de publicidad son 



$35 

11.9 

a) 

y = 153.175 - 6.324a;; 


b ) 

y = 123 a x = 4.8 unidades 

11.11 

b) 

y = -1847.633 + 3.653a;; 

11.13 

b ) 

y = 31.709 + 0.353a;; 

11.17 

a) 

s 2 = 176.4; 


b ) 

t = 2.04; no rechace Hq: ,0=0. 

11.19 

a) 

s 2 = 0.40; 


b ) 

4.324 < a < 8.503; 


c) 

0.446 < /3 < 3.172 

11.21 

a) 

s 2 = 6.626; 


b ) 

2.684 < a < 8.968; 


c) 

0.498 < f3 < 0.637 

11.23 

t - 

= —2.24; rechace Hq: j3 < 6 

11.25 

a) 

24.438 < /^y|24.5 < 27.106; 


b) 

21.88 < y 0 < 29.66 

11.27 

8.856 < fj, Y \i.6 < 9-761 

11.29 

a) 

17.1812; 


b ) 

no (el intervalo de confianza de 95% sobre la 



media mpg es [27.95, 29.60]); 


c) 

las millas por galon probablemente excederan 



18 

11.33 

b ) 

y = 3.4156a; 



E X iVi 

11.35 

a) 

b=^ ; 


n 1 

E 


b) y = 2.003:r 

E ( X li -X 1 )x 2 i 

11.37 E(B)=0 + 7 ^ . 

E (xn-xi) 2 

i= 1 

11.39 a) a= 10.812, b = -0.3437; 

b) f = 0.43; la regresion es lineal. 

11.41 / = 1.12; la regresion es lineal. 

11.43 / = 1.71 y valor P = 0.2517; la regresion es 
lineal. 

11.45 a) P = -11.3251 - 0.0449T 1 ; 

b ) si; 

c) R 2 = 0.9355; 

d) si 
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11.47 b) N = -175.9025 + 0.0902K; R 2 = 0.3322. 
11.49 r = 0.240 
11.53 a) r = 0.392; 

b) t = 2.04; no rechace Hq: p = 0; sin embargo, 
el valor P = 0.053 es marginal. 

Capitulo 12 

12.1 a) y = 27.547 + 0.922®! + 0.284® 2 ; 

6) y = 84 a ®i = 64 y ®2 = 4. 

12.3 y = 0.5800 + 2.7122®i + 2.0497® 2 . 

12.5 a) y = 56.4633 + 0.1525® - 0.00008® 2 ; 

b) y = 86.7% cuando la temperatura es 225 °C. 

12.7 y = 141.6118 - 0.2819® + 0.0003® 2 . 

12.9 a) y = -102.7132 + 0.6054®i + 8.9236® 2 + 
1.4374®3 + 0.0136®4; 

b)y = 287.6 

12.11 i ) = 3.3205 + 0.4210®i - 0.2958® 2 + 0.0164® 3 + 
0.1247® 4 . 

12.13 y = -6.5122 4- 1.9994®i - 3.6751® 2 + 2.5245® 3 + 
5.1581® 4 + 14.4012® 5 . 

12.15 a) y = 350.9943 - 1.2720®i - 01539® 2 ; 
b) y = 140.9 

12.17 0.1651 

12.19 242.72 

12.21 a) cr 2 B2 = 28.0955; b) & Bi b 2 = -0.0096 

12.23 29.93 < p Y \19.5 < 31-97 

12.25 t = 2.86; rechace Hq y favorezca fa > 0. 

12.27 t = 3.55 con valor P = 0.01; rechace Hq y favo- 
rezca fa > 2. 

12.29 a) t = —1.09 con valor P= 0.3562; 

b) t = —1.72 con valor P= 0.1841; 

c) si; no hay suficiente evidencia que demuestre 
que los valores de ®i y ® 2 son significativos. 

12.31 R 2 = 0.9997 


12.33 / = 5.106 con valor P = 0.0303; la regresion no 
es significativa en el nivel 0.01. 

12.35 / = 34.90 con valor P = 0.0002; rechace Ho y 
concluya que fa > 0. 

12.37 / = 10.18 con valor P < 0.01; ®i y ® 2 son signi- 
ficativos en la presencia de ® 3 y ® 4 . 

12.39 Es mejor el modelo de dos variables. 

12.41 Primer modelo: 77 2 ju = 92.7%, CV = 9.0385; 

Segundo modelo: = 98.1%, CV = 4.6287; 

La prueba /parcial muestra un valor P= 0.0002; 
es mejor el modelo 2. 

12.43 Utilizando ® 2 solo no es muy diferente de usar 
®i y ® 2 juntos, ya que las _R 2 j u son 0.7696 contra 
0.7591. 

12.45 mpg = 5.9593 - 0.00003773 odometro + 0.3374 
octanaje — 12. 6266zi — 12.9846z 2 ; 

b) sedan 

c) no son significativamente diferentes. 

12.47 b) y = 4.690 segundos; 

c) 4.450 < My|{ 180 , 260 } < 4.930 

12.49 y = 2.1833 + 0.9576® 2 + 3.3253® 3 

12.51 a) y = -587.211 + 428.433®; 

b) y= 1180 - 191.691® + 35.20945® 2 ; 

c) modelo cuadratico 

12.53 a% l = 20, 588; = 62.6502; 

OBi.Bn = -1103.5 

12.55 a) Es mejor el modelo de intersection. 

12.57 a)y = 3.1368 + 0.6444®i - 0.0104® 2 + 

0.5046®3 - 0.1197®4 - 2.4618® 5 + 1.5044® 6 ; 

b) y = 4.6563 + 0.5133® 3 - 0.1242® 4 ; 

d) y = 4.6563 + 0.5133® 3 - 0.1242® 4 ; 

e) dos observaciones tienen valores grandes de 
R de student y deben verificarse. 

12.59 a) y = 125.8655 + 7.7586®i + 0.0943® 2 - 
0.0092®i® 2 ; 

b) el modelo con ® 2 solo es el mejor. 


Capitulo 14 
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Capitulo 13 

13.3 / = 0.31; no hay evidencia suficiente para soste- 
ner que existen diferencias entre las 6 maquinas. 


13.35 / = 0.58; no significativo 

13.39 / = 5.03; las calificaciones no estan influidas por 
los diferentes profesores. 


13.5 / = 14.52; si, la diferencia es significativa. 

13.7 / = 2.25; no hay evidencia suficiente para sos- 
tener que las diferentes concentraciones de 
MgNH 4 P 04 afectan significativamente la altura 
que alcanzan los crisantemos. 


13.9 / = 8.38; las actividades especfficas promedio 
difieren de manera significativa. 


13.11 


13.13 


a) f = 14.27; rechace Ho ; 

b) f = 23.23; rechace H a \ 

c) f = 2.48; no rechace Hq. 

a) f = 13.50; las medias de los tratamientos 
son diferentes; 


b) /(I vs. 2) = 29.35; significativo; 
/( 3 vs. 4) = 3.59; no significativo 


13.41 p > 0.0001; 

/ = 122.37; la cantidad de tinta sf influye en el 
color de la tela. 


13.43 


a) f = 14.9; los operadores difieren significati- 
vamente; 

b) d 2 = 28.91; s 2 = 8.32. 


13.45 


a) f = 3.33; sin diferencia significativa; pero 
el valor P = 0.0564 es marginal; 

b) <7 2 = 1.08; s 2 = 2.25. 


13.49 9. 


13.51 


a ) yij = fj, + ati + eij, cti ~ n(x;0,a a )', 

b) = 0 (el componente de varianza estima- 
do es -0.00027); a 2 = 0.0206. 


I 3 Xi X 4 X 2 

- L ' J ‘- LO 56.52 59.66 61.12 61.96 

13.17 a) f = 9.01; sf, significativo; 

b) Remocion 

Dismi- De Hess del sustrato, 
nucion modificado de Kicknet Surber Kicknet 


13.53 a) = p + ai + aii ~ n(x-,0,a a ); 

b) sf; / = 5.63 con valor P = 0.0121; 

c) hay un componente de varianza del telar 
significativo. 


13.19 Comparacion del control para 1 y 2; significativo; 
Comparacion del control para 3 y 4; no signifi- 
cative. 

13.21 La absorcion media para el agregado 4 es signi- 
ficativamente menor que para el otro agregado. 

13.23 / = 70.27 con valor P < 0.0001; rechace Ho. 

XO X25 X 100 X?5 X 50 

55.167 60.167 64.167 70.500 72.833 

La temperatura es importante; tanto 75 como 
50° (C) producen baterfas con vida activa sig- 
nificativamente mas larga. 

13.27 a) /(fertilizante) = 6.11; significativo; 
b) f = 17.37; significativo; 

/ = 0.96; no significativo 


Capitulo 

14.1 a) f 

b) f 

c) / 

14.3 a) f 

b ) / 

c) / 

14.5 a) f 

b ) / 

c) f 


14 

= 8.13; significativo; 

= 5.18; significativo; 

= 1.63; no significativo 

= 14.81; significativo; 

= 9.04; significativo; 

= 0.61; no significativo; 

= 34.40; significativo; 

= 29.95; significativo; 

= 20.30; significativo; 


13.29 / = 5.99; el porcentaje de aditivos externos no 
es el mismo para las tres marcas de mermelada; 
marca A. 

13.31 /(estacion) = 26.14; significativo 
13.33 /( dieta) = 11.86; significativo 


14.7 Prueba del efecto de la cantidad de catalizador: 
/ = 46.63 con valor P = 0.0001; 

Prueba del efecto de la temperatura: / = 10.85 
con valor P = 0.0002; 

Prueba del efecto de la interaction: / = 2.06 
con valor P = 0.074. 
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14.9 a) 

Fuente de Suma de Cuadrados 


variacion 

gl cuadrados 

medios 

/ 

P 

Velocidad 

de corte 

i 

12.000 

12.000 

1.32 

0.2836 

Geometrfa de la 

herramienta 

i 

675.000 

675.000 

74.31 < 0.0001 

Interaccion 

Error 

i 

8 

192.000 

72.667 

192.000 

9.083 

21.14 

0.0018 


Total 


11 951.667 


b ) 

El efecto de la interaccion oculta el efecto 
de la velocidad de corte; 


c) 

./geometrfa de la herramienta=l ~ 16.51 y valor P 

= 0.0036; 


d) 

/geometrfa de la herramienta=2 — 5.94 y valor P — 

0.0407. 

14.11 

a) 



Fuente de 
variacion 

Suma de Cuadrados 
gl cuadrados medios 

/ 

P 

Metodo 

1 0.00010414 0.00010414 

6.57 

0.0226 

Laboratorio 

6 0.00805843 0.00134307 

84.70 < 0.0001 

Interaccion 

6 0.00019786 0.00003298 

2.08 

0.1215 

Error 

14 0.000222 0.00001586 




Total 27 0.00858243 


b) La interaction no es significativa; 

c) Ambos efectos principales son significativos; 

e) /iaboratorio=i = 0.01576 y valor P = 0.9019; 
no hay diferencia significativa de los meto- 
dos en el laboratorio 1; 

/geometrfa de la herramienta=2 ~ 9.081 y valor P 

= 0.0093. 


14.13 b) 

Fuente de Suma de Cuadrados 

variation gl cuadrados medios f P_ 

Metodo 1 0.06020833 0.06020833 157.07 < 0.0001 
Laboratorio 1 0.06020833 0.06020833 157.07 < 0.0001 
Interaction 1 0.00000833 0.00000833 0.02 0.8864 

Error 8 0.00306667 0.00038333 

Total 11 0.12349167 


c) Tanto el tiempo como el tratamiento in- 
fluyen significativamente en la absorcion 
del magnesio, aunque no existe interaction 
significativa entre ambos. 

d) y = fi + /3 t Tiempo + f3zZ + /3tz Tiempo * 
Z + e, donde Z = 1 cuando el tratamiento 
= 1 y Z = 0 cuando el tratamiento = 2; 

e) f = 0.02 con valor P = 0.8864; la interac- 
tion en el modelo no es significativa 


14.15 a) AB: f = 3.83; significativo; 

AC : f = 3.79; significativo; 

BC : / = 1.31; no es significativo; 
ABC : f = 1.63; no es significativo; 


b ) A : / = 0.54; no es significativo; 

B : / = 6.85; significativo; 

C : / = 2.15; no es significativo; 

c) La presencia de la interaction AC oculta el 
efecto principal C. 


14.17 a) Esfuerzo cortante / = 45.96 con valor P < 
0 . 0001 ; 

recubrimiento / = 0.05 con valor P = 
0.8299; 

humedad f = 2.13 con valor P = 0.1257; 
recubrimiento x humedad / = 3.41 con 
valor P = 0.0385; 

recubrimiento x e. cortante / = 0.08 con 
valor P = 0.9277; 

humedad x e. cortante / = 3.15 con valor 
P= 0.0192; 

recubrimiento x humedad x e. cortante / 
= 1.93 con valor P= 0.1138. 
b) La mejor combination parece ser sin recu- 
brimiento, humedad media y nivel de e. 
cortante de 20. 


Efecto 

/ 

P 

Temperatura 

14.122 

< 0.0001 

Superficie 

6.70 

0.0020 

HRC 

1.67 

0.1954 

TxS 

5.50 

0.0006 

T x HRC 

2.69 

0.0369 

SxHRC 

5.41 

0.0007 

TxSxHRC 

3.02 

0.0051 


14.21 a) si; marca x tipo; marca x temperatura; 

b) si; 

c) marca Y, detergente en polvo, alta tempe- 
ratura. 

14.23 a) 


Efecto 

/ 

P 

Tiempo 

543.53 

< 0.0001 

Temperatura 

209.79 

< 0.0001 

Solvente 

4.97 

0.0457 

Tiempo x temperatura 

2.66 

0.1103 

Tiempo x solvente 

2.04 

0.1723 

Tiempo x solvente 

0.03 

0.8558 

Tiempo x temperatura x solvente 

6.22 

0.0140 


Aunque las tres interacciones bilaterales 
se muestran insignificantes, podrian estar 
ocultas por la interaction trilateral signi- 
ficativa; 

14.25 a) f = 1.49; no hay interaction significativa; 
b) /(operadores) = 12.45; significativo; 
/(filtros) = 8.39; significativo; 


Capitulo 15 
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c) 


14.27 o) 

b) 

14.29 0.59 
14.31 a) 

b) 

c) 

14.33 a) 


b) 

c) 


er 2 = 0.1701 (filtros); 

&p = 0.3514 (operadores); 
s 2 = 0.1867 

dp, d 2 , <t 2 7 son significativos; 
d 2 y d 2 7 son insignificantes 


modelo combinado; 

Material: / = 47.42 con valor P < 0.0001; 
Marca: / = 1.73 con valor P = 0.2875; 
Material x marca: 16.06 con valor P = 
0.0004; 
no 


Vijk M v a.i — f3j -I- (ck/3)jj -{- CjjTc i (mode 
lo combinado); 

A = flujo de energla, B = tipo de cereal; 
f3j ~ n(x',0, cr'p), independiente; 

(. AB)ij ~ n(®; 0, <r 2 ^), independiente; 
tijk ~ n(o;;0, er 2 ), independiente; 
no; 
no 


Capitulo 15 

15.1 S&4 = 2.6667, SSB = 170.6667, SSC = 
104.1667, SS(AB) = 1.5000, SS(AC) = 42.6667, 
SS(BC) = 0.0000, SS{ABC ) = 1.5000. 

15.3 Los factores A, B y C tienen efectos negati- 
ves sobre el compuesto de fosforo, y el factor D 
tiene un efecto positivo. Sin embargo, la inter- 
pretation del efecto de los factores individuates 
deberfa implicar el uso de las graficas de inte- 
raction. 

15.5 Efectos significativos 

A: f - 9.98; C: / = 6.54; BC: f = 19.3. 

Efectos insignificantes 

B: f = 0.20; D: f = 0.02; AB: f = 1.83; 

AC: f = 0.20; AD: f = 0.57; BD: f = 1.83; 
CD: f = 0.02. 

15.9 o) b A = 5.5, b B = -3.25 y b AB = 2.5; 

b) Los valores de los coeficientes son de la 
mitad de los efectos; 

c) tj i = 5.99 con valor P = 0.0039; 
t B = —3.54 con valor P = 0.0241; 
t AB = 2.72 con valor P= 0.0529; 
t2 = F. 


15.11 a) A = -0.8750, B = 5.8750, C = 9.6250, 
AB = -3.3750, AC = -9.6250, BC = 
0.1250 y ABC = -1.1250; 

B, C, AB y AC parecen importantes con 
base en sus magnitudes. 
b) Efectos Valor P 


A 

0.7528 

B 

0.0600 

C 

0.0071 

AB 

0.2440 

AC 

0.0071 

BC 

0.9640 

ABC 

0.6861 


c) si'; 

d) Con un nivel alto de A, esencialmente C 
no tiene efecto. Con un nivel bajo de A, C 
tiene un efecto positivo. 

15.13 A, B, C, AC, BC y ABC, cada uno con un gra- 
do de libertad pueden probarse usando un error 
cuadratico medio con 12 grados de libertad. Cada 
una de las tres replicas contiene 2 bloques con 
AB confundidos. 


15.15 Bloque 1 Bloque 2 Bloque 3 Bloque 4 


(1) 


c 


d 


a 

ab 


abc 


ac 


b 

acd 


ad 


be 


cd 

bed 


bd 


abd 


abed 


CD tambien se confunde con los bloques. 


15.17 Replica 1 


ABC 

confundido 


Replica 1 


B1 

B2 

abc 

ab 

a 

ac 

b 

be 

c 

(i) 


B1 

B2 

abc 

ab 

a 

ac 

b 

be 

c 

(i) 


ABC 

confundido 


Replica 1 


B1 

B2 

(1) 

a 

c 

b 

ab 

ac 

abc 

be 


AB 

confundido 


15.19 a) 


Maquina 

12 3 4 


(i) 


c 


a 


ac 

ab 


d 


b 


ad 

cd 


e 


acd 


ae 

ce 


abc 


ace 


be 

de 


abd 


ade 


bd 

abed 


abe 


bed 


be 

abce 


ede 


bee 


aede 

abde 


abede 


bde 


bede 


b ) AB, CDE , ABCDE (un diseno posible). 
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15.21 a) x 2 , x 3 , xix 2 y xix 3 ; 

b) Curvatura: valor P = 0.0073; 

c) Un punto de diseno adicional diferente de 
los originales. 

15.23 (0,-1), (0,1), (—1,0), (1,0) podria utilizarse. 

15.25 a) con BCD como el contraste definitorio, el 
bloque principal contiene (1), o, be, abc, bd, 
abd, cd, acd; 

b) Bloque 1 Bloque 2 


(1) 


a 

be 


abc 

abd 


bd 

acd 


cd 


confundido por ABC ; 


c) el contraste definitorio BCD produce los 
siguientes resultados: A = ABCD, B = 
CD, C = BD, D = BC, AB = ACD, AC 
= ABD, y AD = ABC. Puesto que AD 
y ABC estan confundidos con los bloques, 
hay solo dos grados de libertad del error en 
las interacciones no confundidas. 


Fuente de 
variacion 

Grado de 
libertad 

A 

1 

B 

1 

C 

1 

D 

1 

Bloques 

1 

Error 

2 

Total 

7 


15.27 a) Con el contraste definitorio ABCE y ABDF, 
el bloque principal contiene (1), ab, acd, 
bed, ce, abce, ade, bde, acf, bef, df, abdf, 
aef, bef, edef, abedef; 

b) A = BCE = BDF = ACDEF, 

AD = BCDE = BF = ACEF, 

B = ACE = ADF = BCDEF, 

AE = BC = BDEF = ACDF, 

C = ABE = ABCDF = DEF, 

AF = BCEF = BD = ACDE, 

D = ABCDE = ABF = CEF, 

CE = AB = ABC DEF = DF, 

E = ABC = ABDEF = CDF, 

DE = ABCD = ABEF = CF, 

F = ABCEF = ABD = CDE, 

BCD = ADE = ACF = BEF, 

AB = CE = DF = ABC DEF, 

BCF = AEF = ACD = BDE, 

AC = BE = BCDF = ADEF- 


Fuente de Grado de 


variacion 

libertad 

A 

1 

B 

1 

C 

1 

D 

1 

E 

1 

F 

1 

AB 

1 

AC 

1 

AD 

1 

BC 

1 

BD 

1 

CD 

1 

Error 

3 


Total 15 


1 Fuente gl 

SS 

MS 

/ 

P 

A 


1 

6.1250 

6.1250 

5.81 

0.0949 

B 


1 

0.6050 

0.6050 

0.57 

0.5036 

C 


1 

4.8050 

4.8050 

4.56 

0.1223 

D 


1 

0.2450 

0.2450 

0.23 

0.6626 

Error 


3 

3.1600 

1.0533 



Total 


7 

14.9400 



Fuente gl 


SS 

MS 

/ 

P 

A 

1 

388129.00 

388129.00 

3585.49 

0.0001 

B 

1 

277202.25 

277202.25 

2560.76 

0.0001 

C 

1 


4692.25 

4692.25 

43.35 

0.0006 

D 

1 


9702.25 

9702.25 

89.63 

0.0001 

E 

1 


1806.25 

1806.25 

16.69 

0.0065 

AD 

1 


1406.25 

1406.25 

12.99 

0.0113 

AE 

1 


462.25 

462.25 

4.27 

0.0843 

BD 

1 


1156.00 

1156.00 

10.68 

0.0171 

BE 

1 


961.00 

961.00 

8.88 

0.0247 

Error 

6 


649.50 

108.25 




Total 15 686167.00 


Todos los efectos principales son significativos 
en el nivel 0.05; AD, BD y BE son tambien 
significativos en el nivel 0.05. 

.33 El bloque principal contiene af, be, cd, abd, ace, 
bef, def, abedef. 


.35 A = BD = CE = CDF = BEF = ABCF = 
ADEF = ABCDE- 

B = AD = CF = CDE = AEF = ABCE = 
BDEF = ABCDF; 

C = AE = BF = BDE = ADF = CDEF = 
ABCD = ABCEF; 

D = AB = EF = BCE = ACF = BCDF = 
ACDE = ABDEF; 

E = AC = DF = ABF = BCD = ABDE = 
BCEF = ACDEF; 


15. 

15. 

15 

15 
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F = BC = DE = ACD = ABE = ACEF = 
ABDF = BCDEF. 

15.37 y = 12.7519 + 4.7194*1 + 0.8656* 2 - 1.4156*3; 
las unidades estan centradas y a escala; prueba 
de falta de ajuste, F = 81.58, con valor P < 
0 . 0001 . 

15.39 AFG, BEG , CDG, DEF, CEFG, BDFG , 
BCDE, ADEG, ACDF, ABEFy ABCDEFG. 


18.3 a) f(p\x = 1 ) = 40p(l - p) 3 /0.2844; 
0.05 < p < 0.15; 
b) p* = 0.106 


18.5 

18.7 

18.11 


8.077 < p < 8.692 

a) 0.2509; b) 68.71 < p < 71.69; 
c) 0.0174 


Capitulo 16 

16.1 x = 7 con valor P= 0.1719; no rechace Ho. 
16.3 * = 3 con valor P = 0.0244; rechace Hq. 

16.5 * = 4 con valor P = 0.3770; no rechace Ho- 

16.7 x = 4 con valor P = 0.1335; no rechace Ho- 

16.9 w = 43; no rechace H u . 

16.11 w + = 17.5; no rechace Hq. 

16.13 a = —2.13; rechace Hq a favor de pi — p 2 < 8. 
16.15 ui = 1; la afirmacion es valida. 

16.17 u 2 = 5; A opera mas. 

16.19 u = 15; no rechace Hq. 

16.21 h = 10.47; los tiempos de operation son dife- 
rentes. 

16.23 v = 7 con valor P = 0.910; muestra aleatoria. 

16.25 v = 6 con valor P = 0.044; no rechace Hq. 

16.27 2 = 1.11; muestra aleatoria. 

16.29 0.70 
16.31 0.995 

16.33 o) rs = 0.39; no rechace Ho. 

16.35 o) rs = 0.72; b) rechace Hq de manera que 

p > 0. 

16.37 o) rs = 0.71; b) rechace Ho de manera que 

p > 0. 


Capitulo 18 

18.1 p* = 0.173 
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